Redes Neuronal Es

REDES NEURONALES
Monograf a
Tratamiento Estad stico de Se nales
Santiago Lafon Abril de 2002
Esta monograf a es una breve introducci on a las Redes Neuronales Articiales. De la gran diversidad de modelos existentes, solo se analizan dos de ellos: el Perceptr on y las redes RBF. Ambos son modelos de redes de aprendizaje supervisado. Los Perceptrones solo se analizan desde el punto de vista de su estructura y su capacidad de clasicaci on. Sobre las redes RBF se realiza un an alisis te orico de mayor profundidad, simul andose algunas t ecnicas de aprendizaje.
Introducci on
Una Red Neuronal Articial (RNA) es un sistema procesador de informaci on cuyas caracter sticas de desempe no se inspiran en el funcionamiento de las Redes Neuronales Biol ogicas (RNB).En sus or genes las RNA quisieron ser un modelo matem atico del funcionamiento de las RNB. Con el correr del tiempo fueron surgiendo modelos de RNA que se alejaron de la parte biol ogica, pero que se encontraron optimos para resolver problemas de procesamiento de informaci on. Las principales caracter sticas comunes son: El procesamiento de la informaci on ocurre en elementos llamados neuronas. Una red neuronal est a formada por un conjunto de neuronas conectadas entre s y con el exterior por medio de ligas. A trav es de las ligas se transmiten se nales en un u nico sentido1 . Esto causa que haya entradas y salidas a una neurona (en realidad cada neurona tiene una u nica salida que puede ser a su vez entrada de muchas otras). El resultado del procesamiento que ocurre en una neurona es una funci on no lineal de las entradas a la misma y de un conjunto de par ametros. El u ltimo punto es la base del funcionamiento de las RNA, ya que el conjunto de par ametros de los que dependen dichas funciones se van ajustando de acuerdo a lo que van aprendiendo. Para ser un poco m as espec cos, pensemos en un ejemplo dentro de los campos en los que las RNA tienen mayor auge: el reconocimiento de patrones. Supongamos que se quiere tener una RNA capaz de reconocer letras manuscritas a partir de im agenes digitales(es decir, cada imagen digital corresponde a una letra
1 Esto no es totalmente cierto, ya que existen conexiones bidireccionales entre las neuronas reales. Esto se puede modelar como dos ligas unidireccionales en sentidos opuestos.
manuscrita). Nuestra RNA tendr a como entrada la matriz de puntos de la imagen digital y 28 salidas, una para cada letra, y deseamos que poner un 1 en la salida de la letra correspondiente a la imagen de entrada y 0 en las dem as. Llamando n al no de puntos de la matriz, la RNA bien podr a tener la forma que se observa en la gura 1. Cada persona realiza las letras en forma diferente, m as a un, nadie
x1
A B
x2
xn
Capa de entrada
Capa de salida
Capas ocultas
Figura 1:
Estructura de la RNA para detecci on de letras
realiza dos iguales, pero supongamos que disponemos de un conjunto de im agenes que sabemos a que letra corresponden, escritos por un conjunto de varias personas (llamado muestra o base de datos). El primer paso es entrenar a la RNA. Para esto se realiza lo siguiente: 1. Se toma una valor inicial para los par ametros de la misma. 2. Se observa la salida que se obtiene para una imagen y se compara con la salida deseada (error). 3. Con un algoritmo adecuado se modican los par ametros en funci on del error que se tuvo en el paso 2. Los pasos 2 y 3 se repiten con todas las im agenes de la muestra. Luego de que la red ha sido entrenada, si el algoritmo es bueno y la muestra es sucientemente heterog enea, la red es capaz de responder con un porcentaje de aciertos muy alto a las im agenes que le pongamos de aqu en m as. El aprendizaje en las RNA se puede dar de 2 modos: supervisado o no supervisado. En el modo supervisado el aprendizaje se logra en base a la comparaci on directa del la salida de la red con la respuesta correcta ya conocida. En el modo no supervisado la informaci on disponible solo est a en correlaci on de datos de entrada o se nales. Se espera que la red forme categor as de estas correlaciones, y producir una se nal correspondiente a cada categor a de entrada. Claramente el ejemplo antes nombrado corresponder a al modo supervisado. Las RNA pueden ser clasicadas tambi en seg un su arquitectura. Hay dos grandes clases: las redes de propagaci on hacia adelante y las redes recursivas. En las redes de propagaci on hacia adelante se tiene una estructura de capas, donde la salida de una cierta neurona solo puede servir de entrada a neuronas de la capa siguiente , salvo que se trate de una neurona de la u ltima capa, en cuyo caso su salida ser a ya una salida de la RNA. Las redes recursivas permiten realimentaci on entre capas, teniendo una din amica de mayor complejidad. El esquema presentado en el ejemplo corresponde a una red de propagaci on hacia adelante.
2
2.1
El primer modelo: El Perceptr on

El modelo biol ogico
Una neurona real esta compuesta b asicamente por un cuerpo celular aproximadamente esf erico del que salen una rama principal, el ax on, y varias ramas m as cortas, las dentritas. El extremo lejano del ax on se abre en peque nas ramas por las cuales se comunica con las dentritas de otras neuronas o con el exterior de la red neuronal (m usculos o gl andulas). El proceso interno en la neurona es as : el cuerpo celular de una neurona N 1 recibe por las dentritas se nales el ectricas, que combina e integra. Si se alcanza un cierto umbral positivo, emite una se nal por el ax on. Esto genera que un elemento qu mico llamado neurotransmisor se haga presente en la dentrita de las siguiente neurona (N 2). Seg un el tipo de neurotransmisor y como se combine con la neurona N 2, se producir a un efecto excitatorio o inhibitorio en la misma. La neurona N 2 sumar a este efecto a los que le produzcan otras neuronas que est en comunicadas con otras dentritas, emitiendo se nales a su vez cuando las se nales recibidas alcancen el umbral. Los coecientes de la combinaci on de las entradas son variantes en el tiempo, y les llamaremos par ametros. Se podr a decir entonces que la salida es una funci on de las entradas y de un conjunto de par ametros, y que esta funci on no ser a lineal por ser una funci on con umbrales. El umbral que se debe alcanzar para que se produzca una se nal a la salida de una neurona se lo denomina potencial de acci on.
2.2
El Perceptr on
Seguramente este sea el modelo m as sencillo de neuronas articiales. Se inspira en forma directa del comportamiento de una neurona real. En cada neurona, las entradas xi se suman linealmente ponderadas por un conjunto de par ametros wi . A todo esto se le suma un par ametro m as b y el resultado se pasa por una funci on . El resultado es la salida y (ver gura 2). La ecuaci on de la neurona es entonces:
n
y = (
i=1
wi xi + b) = (wT x + b)
(1)
Podemos vincular el coeciente b con el potencial de reposo. Se han desarrollado diversos sub-modelos
b x1 x2 w1 w2 + f y
xn
wn
Figura 2:
Modelo de una neurona
variando algunas caracter sticas de la funci on . Los principales son: 1. Modelo de McCulloch-Pitts En este caso la funci on tiene un umbral, devolviendo un 1 para entradas positivas y un 0 para las negativas (ver gura 3 a). Este modelo data de 1943. 2. Modelo lineal con saturaci on Este modelo se observa en la gura 3 b. Tendr a mayor o menor rango lineal seg un el valor de pendiente que se elija. 3. Modelo Sigmoidal Este modelo contempla las funciones mon otonas crecientes entre 0 y 1 sim etricas ). El nombre proviene de su forma de S. Una posible familia de funciones con esta respecto al (0, 1 2 3
caracter stica son: (x) =
1 1 + ex
0.8
0.6
0.4
0.2
Figura 3:
Modelos para : azul-McCulloc-Pits rojo-lineal con saturaci on negro-sigmoidal
2.3
Capacidad de clasicaci on de un Perceptr on
Se pretende ahora realizar un breve an alisis de que tanto se puede hacer con un Perceptr on, es decir, con una neurona cuyo modelo es el visto en la secci on anterior. Trabajaremos u nicamente con el modelo de McCulloch-Pitts. Para comenzar supongamos que n=2, o sea que la entrada es un vector x R2 . La salida de la neurona ser a: y = 1 w1 x1 + w2 x2 + b > 0 y = 0 w1 x1 + w2 x2 + b < 0 Dado que w1 x1 + w2 x2 + b = 0 es la ecuaci on de una cierta recta r en el plano, lo que estamos diciendo es que un Perceptr on es capaz de distinguir entre dos elementos u nicamente si estos se encuentran en semiplanos diferentes respecto a la recta r. Para analizar el caso m as general en que x Rn , ser a conveniente tener antes claro el concepto de hiperplano en un espacio de dimensi on n. Denamos primero un hiperplano que pasa por el origen como el conjunto de vectores de Rn que son perpendiculares a un cierto vector jo w, o sea, que satisfacen wT x = 0. Para tener un hiperplano que no pase por el origen basta con sumarle a los vectores de un hiperplano por el origen un vector de desplazamiento constante v. Por tanto los puntos de un hiperplano perpendicular a un vector w cumplir an la ecuaci on wT (x + v) = 0. Llamando b = wT v y H al hiperplano, tenemos que: H = {x Rn /wT x + b = 0} (2) siendo w un vector jo perpendicular a H y b una constante. Notemos que los hiperplano dentro de un espacio vectorial de dimensi on n son todos los subespacios vectoriales de dimensi on n-1 as como cualquier traslaci on de estos. Para jar ideas, los hiperplanos en R2 son las rectas y en R3 son los planos. Todo hiperplano tiene la propiedad de dividir el espacio en dos semiespacios. Llamaremos a estos H+ y H , siendo: H+ = {x Rn /wT x + b > 0} H = {x Rn /wT x + b < 0} 4
Volvamos ahora al an alisis de la performance de los Perceptrones cuando le entrada est a en Rn . De acuerdo a la ecuaci on que determina su salida (ecuaci on 1) y al tipo de funciones que estamos utilizando, la salida de una neurona valdr a: y = 1 x H+ y = 0 x H Supongamos que el Perceptr on ser a excitado con entradas de dos conjuntos disjuntos: A y B . Supongamos tambi en que lo que se desea es que el Perceptr on sea capaz de distinguir la entradas del conjunto A de las del conjunto B . Esto ser a posible u nicamente si existe un hiperplano H que separe a estos dos conjuntos. En caso positivo, se pueden elegir entonces los coecientes de w y el coeciente b de forma tal que: y=1xA y=0xB Se dice que dos conjuntos son linealmente separables si existe un hiperplano que los separe. Podemos concluir entonces que un Perceptr on es capaz de resolver el problema de clasicar puntos entre dos conjuntos u nicamente si estos conjuntos son linealmente separables.
2.4
Ejemplo: la funci on EXOR
En la pr actica uno construye una RNA con el n de lograr que se comporte como un cierto sistema dif cil de estudiar. Por m as complejo que sea el sistema, si es determin stico, debe existir una funci on que relacione las entradas con las salidas. Esto implica que deseamos que la RNA implemente una cierta funci on aunque no sepamos cu al. Supongamos que la funci on que debe implementar nuestra RNA es la funci on EXOR (EXclusive OR), que tiene dos entradas y una salida. x1 0 0 1 1 x2 0 1 0 1 y 0 1 1 0
Intentemos resolver esto con una RNA compuesta por un solo Perceptr on. B asicamente deber amos lograr que la RNA distinga los elementos de A = {(0, 1); (1, 0)} de los elementos de B = {(0, 0); (1, 1)}. Como se
x2
r p1 p2
x1 p3 p4
Figura 4: observa en la gura 4 , estos dos conjuntos no son linealmente separables. Estos es suciente para poder
armar que no habr a algoritmo de aprendizaje capaz de encontrar coecientes tales que un Perceptr on pueda implementar la funci on EXOR. Intentemos resolverlo ahora con una RNA de dos capas como se muestra en la gura 5. Esto si es posible. Lo que debemos lograr es que los Perceptrones N1 y N2 realicen un cambio de variable entre el plano
x1 N1 x2 N2
z1 y z2 N3
Figura 5:
Red de Perceptrones de dos capas
(x1 , x2 ) y el plano (z1 , z2 ) de forma tal que el Perceptr on N3 resuelva un problema en las variables z1 y z2 que sea linealmente separable. Llamemos r1 , r2 y r3 a las rectas (hiperplanos) que determinan el comportamiento de la salidas de N1 , N2 y N3 respectivamente. Ubicando las rectas como se muestra en la gura 6 se consigue el funcionamiento deseado. En este ejemplo las entradas de inter es eran apenas cuatro. Se quer a distinguir entre dos subconjuntos
r3+ x2 r3z2
r1+ r1p1 p2 p1 p2
x1 p3 p4 r2+ r2p4
z1
Figura 6:
que no eran linealmente separables y se logr o. Imaginemos ahora que los puntos de inter es son muchos m as. Esto puede suceder por tener m as entradas y por tanto aumentar la dimensi on, as como por admitir m as valores posibles para cada entrada. Pongamos por ejemplo que procesamos im agenes de 600x800 pixeles y que cada pixel toma 1 de 256 colores. Si cada entrada es un pixel tenemos aproximadamente 123 millones de entradas diferentes posibles. Es bastante claro que lograr que dos subconjuntos de inter es est en linealmente separados es una meta dif cil. Con este problema en la cabeza abordaremos en la pr oxima secci on un nuevo tipo de RNA que incluyen una primera capa pensada para simplicar este problema.
2.5
Algunos resultados sobre Redes de Perceptrones Multicapa
La idea en esta secci on es nombrar algunos resultados sobre RNA de Perceptrones. En la secci on anterior anterior se estudio la utilidad de estas bajo el modelo de McCulloc-Pits. Existe un resultado llamado Teorema de Aproximaci on Universal que dice que se puede aproximar tanto como se desee cualquier funci on f con una RNA de una sola capa de Perceptrones cuyas salidas se conectan a un sumador ponderado2 , siempre y cuando se tengan sucientes Perceptrones en dicha capa y se elijan de forma adecuada los coecientes. Las hip otesis necesarias son: f sea una funci on continua en el hipercubo [p, p]n La funci on no lineal de los Perceptrones sea continua, no constante, acotada y mon otona creciente. Este resultado puede verse con mayor detalle en [1] o [7]. Un posible conjunto de funciones ser an las sigmoidales nombradas en 2.2. Otro resultado de inter es para el estudio de RNA de Perceptrones es el algoritmo de aprendizaje BackPropagation. Este algoritmo sirve para elegir los coecientes optimos para una RNA de Perceptrones de M capas (una red de Perceptrones de M capas es una red de propagaci on hacia adelante similar a la de la gura 1). La optimalidad que se tiene es en el sentido de minimizar la siguiente funci on de costo: 1 J [k ] = 2
NM
|ei [k ]|2
i=1
(3)
donde NM es el n umero de salidas de la RNA, k indica el n umero de iteraci on y ei es la diferencia entre la salida que nos da la RNA y la deseada. Este algoritmo desarrollado para el caso en que las se nales son complejas se encuentra en [1] y [7], y para el caso real tambi en se puede ver [2] o [3]. Este algoritmo es vital en la pr actica pues las RNA de Perceptrones sin etapa de aprendizaje carecen de sentido.
2 Un
sumador ponderado es como un Perceptr on que no aplica a la salida la funci on de umbral .
3
3.1
Redes RBF
Separaci on de Patrones - Teorema de Cover
Al estudiar los Perceptrones se lleg o a la conclusi on de que un punto importante para poder reconocer elementos entre dos conjuntos es que estos sean linealmente separables. Una vez que se tiene est a propiedad, el reconocimiento se puede hacer de forma bastante sencilla. Sin embargo lo com un en un problema de reconocimiento es que esto no suceda. En esta secci on analizaremos como se puede hacer para transformar un problema no linealmente separable en uno que si lo sea. Sea S el conjunto de entradas de inter es y n la dimensi on del espacio de entradas. S = {s1 , s2 , . . . , sk } con si Rn Supongamos que tenemos una dicotom a en S ,es decir , cada elemento pertenece a uno y solo uno de dos subconjuntos de S a los que llamaremos S1 y S2 . Para cada s S denamos (x) = [1 (x), 2 (x), . . . m1 (x)] donde j : Rn R para j = 1 . . . m1 . Se dice que {S1 , S2 } son -separables sii (S1 ) y (S2 ) son linealmente separables. Lo que se est a haciendo es un cambio de variable para intentar que nuestra en nueva variable tengamos separaci on lineal. La idea es que cuanto mayor sea m1 la probabilidad de lograrlo ser a m as alta. Cover estudi o este problema en 1965, obteniendo resultados probabil sticos para un cierto conjunto de funciones (polinomios de grado r homog eneos) y para una dicotom a aleatoria. El resultado que obtuvo, conocido como Teorema de Cover es que la probabilidad de lograr separaci on lineal crece como una binomial. Esto implica que la probabilidad tender a factorialmente a uno. En las redes RBF, si bien no trabajaremos en las hip otesis del Teorema de Cover, extrapolaremos el razonamiento del mismo. La primer capa de una red RBF llevar a las entradas a un espacio de dimensi on mayor, con la esperanza de obtener mejores resultados en el nuevo espacio.
3.2
Arquitectura de las redes RBF
Las redes neuronales RBF est an constituidas por dos capas: una capa oculta y una capa de salida. La capa oculta esta formada por neuronas que aplican sobre sus entradas una funci on del tipo radial, es decir, la salida de cada neurona es una funci on de la distancia entra las entradas y un punto llamado centro, que caracteriza a cada neurona. Supondremos sin perder generalidad que la RNA tiene una sola salida. En dicho caso la capa de salida est a constituida por una unidad que realiza una suma ponderada de las salidas de las neuronas la capa oculta. Como siempre llamaremos n al n umero de entradas, xi con i = 1 . . . n a las entradas e y a la salida de la RNA. Llamaremos adem as m1 al n umero de neuronas de la capa oculta y ( x ti ) a la funci on que aplica la i- esima neurona, siendo ti el centro de dicha neurona. Los coecientes de la combinaci on ser an wi . As dicho, la funci on que relaciona entradas a la RNA con la salida es:
m1
y=
i=1
wi ( x ti )
(4)
Las funciones radiales citadas como ejemplo en la bibliograf a son: 1. Multicu adricas: ( x t i ) = x ti
2
+c2
para alg un c > 0
2. Multicu adricas inversas ( x ti ) = 1 x ti

2
+c2
para alg un c > 0
fi(x,t1) x1 fi(x,t2) x2 w1 w2 su wm y
xn fi(x,tm)
Figura 7:
3. Thin-plate-spline ( x t i ) = x ti
2
ln
x ti
para alg un > 0
4. Gaussiana ( x ti ) = e
xti 2 2 2
para alg un > 0
En la secci on 3.3 justicaremos el uso de funciones radiales y como caso particular la aparici on de las funciones gaussianas. Las redes neuronales de RBF suelen utilizarse bajo aprendizaje supervisado. Esto quer a decir que necesita de un entrenamiento para elegir la ubicaci on de los centros as como para elegir los coecientes wi . En la secci on 3.4 se analizar an caminos para lograr esto.
3.3
Como elegir la base de funciones: Teor a de Regularizaci on
Consideremos un sistema de n entradas y una sola salida, del cu al se tiene un a muestra de N parejas entrada-salida {xi , di }N a generalidad a los resultados i=1 . El hecho de considerar una sola salida no le quitar que se obtengan en esta secci on y le simplicar a la notaci on. Se quiere una funci on que aproxime en buena forma la relaci on entrada-salida del sistema. La primera idea que uno podr a poner en pr actica es realizar una interpolaci on, es decir, buscar una funci on F tal que F (xi ) = di i = 1...N
Impl citamente se estr a buscando una hipersupercie en Rn+1 que pase por los puntos (xi , di ). Este no es en general un buen camino para resolver el problema. La dicultad que suele surgir al interpolar es que al tener muchos puntos (N grande) la informaci on se vuelve redundante, haciendo el problema sobredeterminado. Esto causa que la soluci on se vuelva muy inestable, ya que tan solo un poco de ruido en las muestras o agregar un punto causa grandes variaciones en la hipersupercie, haciendo a esta poco suave. Un ejemplo cl asico de este problema fue presentado por Runge, al intentar aproximar la funci on 1 2i en [ 1 , 1] con un polinomio. En este consideraba para interpolar los puntos x = 1 + f (x) = 1+25 i x2 N. A mayor N, mayor era el grado del polinomio interpolante y peores los resultados. Esto se observa en la gura 8 Esto hace pensar en buscar una soluci on que en lugar de ser una supercie que interpole estrictamente las muestras, pase cerca de ellos pero sea suave. La teor a de regularizaci on propone que en el momento de elegir la funci on F (x) se tengan en cuenta las siguientes cantidades: 9
n=10 1.5
1 n=2
0.5
n=5
n=3 0
0.5 1
0.8
0.6
0.4
0.2
0.2
0.4
0.6
0.8
Figura 8:
Fen omeno de Runge
ES (F ) =
1 2
N i=1 (di
F (xi ))2 que es una medida del error cuadr atico.
1 D(F ) 2 siendo D un operador diferencial lineal. En esta cantidad se pretende tener EC (F ) = 2 en cuenta la suavidad de la funci on.
La cantidad E que se propone minimizar es: E (F ) = ES (F ) + EC (F ) (5)
Se suele llamar par ametro de regularizaci on a y a E (F ) como funcional de Tikhonov. Cuando es muy chico, se est an priorizando las muestras, y aumentar es pedir mayor suavidad. 3.3.1 Obtenci on de la soluci on
A continuaci on obtendremos la funci on F que minimice (5):

d 1. Denamos d(E (F, h)) = [ d E (F + h)] =0 como el diferencial de E (F ) en la direcci on de h siendo h una funci on h : Rn R. Notemos que este diferencial como una derivada direccional. Lo que se debe cumplir para estar frente a un m nimo en F es que dE (F , h) = 0 para cualquier h.
2. El diferencial del primer t ermino vale:

N
d(ES (F, h)) = h,

i=1
(di F (xi ))xi
(6)
Se utiliza el producto interno f, g = f 2= f 2.
f g . La norma que induce este producto es la norma 2,
10
Demostraci on: d(ES (F, h)) = [ d 1 d ES (F + h)] =0 = [ d 2 d

N N
(di F (xi ) h(xi ))2 ] =0

i=1 N
=[
i=1 N
[di F (xi ) h(xi )]h(xi )] =0 =

i=1
[di F (xi )]h(xi )
= h,
i=1
(di F (xi ))xi
3. El diferencial del segundo t ermino vale: (D(F )) d(EC (F, h)) = h, D el operador adjunto3 de D. siendo D
Demostraci on: d(EC (F, h)) = [ =[
Rn
(7)
d 1 d 2
D(F + h)
] =0 = [
1 d 2 d
Rn
Rn
[D(F + h)]2 dx] =0
D(F + h)D(h)dx] =0 =
D(F )D(h)dx
(D(F )) = D(h), D(F ) = h, D
4. Uniendo lo obtenido en 2 y 3, tenemos que: d(E (F, h)) = d(ES (F, h)) + d(EC (F, h))
N
= h,
i=1
(D(F )) (di F (xi ))xi + h, D
Como deseamos que d(E (F , h)) = 0, se deber a cumplir:

N
(D(F )) h, [D
i=1
(di F (xi ))xi ] = 0
Se desea que la u ltima igualdad valga independientemente del valor del par ametro de regularizaci on se tome. La u nica de que se satisfaga para cualquier h y para cualquier es que: (D(F )) = 1 D
N
(di F (xi ))xi

i=1
(8)
Esta es una condici on necesaria para que el funcional E presente un m nimo en F . 5. Se llama funci on de Green de un operador L a una funci on G(x, ) tal que L(G) = (x ). Si se desea solucionar el problema L(F (x)) = (x), la soluci on es la convoluci on de con G, es decir: F (x) = G(x, )( )d = G(x, ), ( ) (9)
La funci on de Green es como una funci on de transferencia de un sistema con entrada y salida F . Notemos que as denida F se verica: L(F (x)) = L(G(x, ))( )d = (x )( )d = (x)
La funci on de Green satisface las siguientes propiedades:

3 Sea un operador T denido sobre un espacio vectorial V que tenga denido un producto interno. En caso que V sea un espacio completo con la topolog a que induce el producto interno, existir a una representaci on de Riesz para T y como que satisfaga T(u), v = u, T se denomina operador adjunto de consecuencia un operador T (v ) u, v V . Al operador T T.
11
(a) Si L es un operador autoadjunto entonces G(x, ) = G(, x) (b) Si L es un operador invariante bajo traslaciones entonces G(x, ) = G(x ) (c) Si L es un operador invariante bajo traslaciones y rotaciones entonces G(x, ) = G( x ) Se concluye de a), b) y c) que si L es un operador autoadjunto e invariante bajo traslaciones y rotaciones la soluci on al problema L(F (x)) = (x) ser a: F (x) =
Demostraciones: G(y, x) = L(G(x, )), G(y, ) G(x, y) = L(G(y, )), G(x, ) porque L(G(x, ) = (x ) por igual motivo
G( x )( )d = G( x ), ( )
(10)
y por tanto: Si L es autoadjunta se cumplir aL=L L(G(x, )), G(y, ) = G(x, ), L(G(y, )) Esto sumado a las dos igualdades anteriores implica a) Si L es invariante bajo traslaciones entonces L(F (x + v)) = (x + v). Esto implicar a que F (x + v) = G(x + v, ), ( ) y adem as F (x + v) = G(x, ), ( + v) = G(x, v), ( ) Como es cualquiera, se cumplir a G(x, v) = G(x + v, ); y como v tambi en es cualquiera, esto implica b). Si L es invariante bajo rotaciones entonces L(F (Rx)) = (Rx) siendo R una matriz ortogonal (matriz de rotaci on). Tendremos entonces que: F (Rx) = G(Rx, ), ( ) y adem as F (Rx) = G(x, ), (R ) = G(x, R1 ), ( ) Como es cualquiera, se cumplir a G(Rx, ) = G(x, R1 ). Por ser L invariante bajo traslaciones tendremos que 1 G(x R ) = G(Rx ) = G(R(x R1 )). Esto implica c).
. As 6. Sea L = DD denido, L es un operador autoadjunto. El operador D era el operador diferencial lineal, con el cu al se pretend a tener en cuenta la suavidad de la funci on. Es natural entonces pedirle a D que sea invariante bajo traslaciones y bajo rotaciones, lo que implica que L tambi en lo sea. Como se vio en el punto 4 para que el funcional E presente un m nimo en F se debe cumplir la ecuaci on (8), que no es otra cosa que pedir: L(F ) = (x) (x) = 1
N
siendo (di F (xi ))xi
i=1
Dadas las propiedades del operador L, la ecuaci on (10) nos brinda la soluci on: F (x) = G( x ), ( ) = G( x ), 1 =
N
(di F (xi ))xi

i=1
(di F (xi ))G( x xi )

i=1
1 Denamos wi = (di F (xi )) para i = 1, . . . , N . Tenemos entonces que N
F (x) =
i=1
wi G( x xi )
(11)
12
Esta ecuaci on es fundamental, ya que nos dice que la soluci on al funcional de Tikhonov E es una combinaci on lineal de N funciones radiales centradas en las muestras, siempre y cuando se tome D invariante bajo traslaciones y rotaciones. Dicho con otras palabras, la soluci on cae en un espacio de dimensi on N , pudiendo elegirse una base de funciones radiales. 7. Veamos ahora como determinar los coecientes wi . Evaluando (11) en las muestras, se tiene:
N
F (xj ) =
i=1
wi G( xj xi ) j = 1 . . . N
Utilizaremos la siguiente notaci on: F = [F (x1 ), F (x2 ), . . . , F (xN )]T d = [d1 , d2 . . . . , dN ]T G(x1 , x1 ) G(x1 , x2 ) G(x2 , x1 ) G(x2 , x2 ) G= . . . . . . w = [w1 , w2 , . . . , wN ] Los coecientes se determinan entonces resolviendo:
1 (d F ) w= F = Gw
.. .
G(x1 , xN ) G(x2 , xN ) . . . G(xN , xN )
G(xN , x1 ) G(xN , x2 )
que implica que (G + I)w = d (12) Como G es sim etrica, es diagonalizable y sus valores propios son reales. Como consecuencia estamos seguros de poder tomar de forma tal que la matriz G + I sea denida positiva y por tanto invertible. Luego, w = (G + I)1 d (13) 3.3.2 Elecci on del operador diferencial
Hasta aqu hemos visto como hallar el m nimo de E , siempre y cuando hallamos elegido el operador D y . Veremos ahora un operador particular de encontremos cual es la funci on de Green del operador L = DD gran inter es ya que la funci on de Green que inducir a ser a una exponencial. El operador en cuesti on es:
1
D=
k
2k i k!2n
2 k (
k + + + ) x1 x2 xn
donde k = . Es un operador que toma en cuenta las derivadas en todos los ordenes, ponderando m as las primeras. El operador L que induce es: L=
k
(1)k k 2k
siendo 2 =
2 x1 2
2 x2 2
++
2 xn 2
el operador Laplaciano. La funci on de Green que le corresponde es: G(x, xi ) = e
xxi 2 2 2 i
La soluci on nalmente ser a: F (x) =
wi e
i=1
xxi 2 2 2 i
(14)
13
3.3.3
Resumen de resultados de la Teor a de Regularizaci on
La teor a de regularizaci on justic o el uso de las funciones radiales, ya que cualquier operador diferencial razonable que uno pudiera elegir ser a invariante por traslaciones y rotaciones. Tambi en se justic o el nombre de las redes RBF, ya que se demostr o que te oricamente la mejor soluci on cae en un espacio de dimensi on N y una base de dicho espacio est a formada por funciones radiales. Se vio que para un operador en particular, que toma en cuenta todas las derivadas, la soluci on es de forma gaussiana (ecuaci on (14)). El c alculo de los coecientes wi implica invertir una matriz N xN . Se deben poner N neuronas en la primer etapa de la red. Esto no es muy bueno, ya que uno tiende a tomar el mayor n umero de muestras que sea posible, y a mayor n umero de muestras m as compleja ser a la red y m as costoso invertir la matriz G. En caso de conseguir nuevas muestras para entrenar la red se debe modicar la arquitectura de la misma. Si se toma = 0 la elecci on de los coecientes ser a w = G1 d, que es el mismo resultado que se obtendr a por interpolaci on directa. 3.3.4 Generalizaci on de las redes RBF
Dado lo costoso que ser a tomar una base de N elementos, se pretende ajustar la teor a al caso en que uno toma una base de m1 elementos, siendo en general m1 mucho menor que N . Se obtendr a una soluci on F (x) sub- optima, proveniente de proyectar el problema en un espacio de menor dimensi on. Los resultados de las secciones anteriores nos incitan a trabajar con funciones radiales. Tomaremos entonces un conjunto de funciones i (x) = G( x ti ) i = 1, 2, . . . , m1 y buscaremos F (x) en el espacio generado por dichas funciones. El conjunto de centros {ti /i = 1, 2, . . . , m1 } debe ser elegido previamente con alg un criterio. Debemos elegir los coecientes wi que nos den la mejor F (x) de la forma
m1 m1
F (x) =
i=1
wi G(x, ti ) =
i=1
wi G( x ti )
(15)
Los elegiremos de forma tal de minimizar el nuevo funcional de costo

N
di
m1
2 wj G( x tj ) + D(F )
2
E (F ) =
i=1
(16)
j =1
Redeniendo la matriz G como G(x1 , t1 ) G(x2 , t1 ) G= . . . G(x1 , t2 ) G(x2 , t2 ) . . . .. . G(x1 , tm1 ) G(x2 , tm1 ) . . . G(xN , tm1 )
G(xN , t1 ) G(xN , t2 )
14
podemos expresar el primer termino como de que: D(F )

2
d Gw
. Para reescribir el segundo t ermino nos valdremos
= D(F ), D(F )
m1 m1
(D( wi G(x, ti ), D
i=1 m1 m1 j =1
wj G(x, tj )))
=
i=1 j =1 m1 m1
wi wj G(x, ti ), L(G(x, tj )) wi wj G(x, ti ), (x tj )

i=1 j =1 m1 m1
=
i=1 j =1
wi wj G(tj , ti )
= w T G0 w donde G0 es la matriz cuadrada m1 xm1 dada por: G(t1 , t1 ) G(t1 , t2 ) G(t2 , t1 ) G(t2 , t2 ) G0 = . . .. . . . . . G(tN , t1 ) G(tN , t2 ) Finalmente debemos encontrar w para minimizar: E (w) = d Gw
2
G(tm1 , tm1 )
G(t1 , tm1 ) G(t2 , tm1 ) . . .
+wT G0 w
= dT d + wT GT Gw wT GT d + wT GT 0w
T T T = wT (GT G + GT 0 )w w G d + d d
Derivando respecto a w tenemos que: dE T = 2(GT G + GT 0 )w 2G d = 0 dw T (GT G + GT 0 )w = G d El sistema a resolver para hallar los coecientes ahora tiene dimensi on m1 y su soluci on es:
1 T w = (GT G + GT G d 0)
(17) (18)
En caso de tomar = 0 se llegar a a que w = G+ d siendo G = (G G)

+ T 1
G la pseudoinversa de la matriz G.
3.4
T ecnicas de aprendizaje en las redes RBF
Veremos a continuaci on 3 t ecnicas diferentes de aprendizaje en RNA. Consideraremos como siempre un sistema de n entradas y una sola salida, del cu al se tiene un a muestra de N parejas entrada-salida {xi , di }N . El n u mero de neuronas de la capa oculta es m1 . Para elegir este valor, tenemos un compromiso: i=1 De acuerdo a lo expuesto en la secci on 3.1 es conveniente elegir m1 mucho mayor que el n umero de entradas n. De acuerdo a la Teor a de Regularizaci on el ideal es tomar m1 = N , pero un valor grande de m1 aumenta la complejidad de la RNA. Se suele tomar un valor intermedio entre n y N . Claro est a, si tomamos m1 = N podemos utilizar el m etodo que nos brinda la Teor a de Regularizaci on estudiada en la secci on 3.3. 15
3.4.1
M etodo de Centros Fijos
Este es un m etodo basado en la pr actica, pero no tiene grandes fundamentos te oricos. Se utilizan funciones radiales del tipo gaussiano. El procedimiento es el siguiente: 1. Se eligen de forma aleatoria m1 elementos del conjunto {xi }N an los centros de las i=1 . Estos ser funciones radiales de las neuronas de la capa oculta. 2. Se calcula la desviaci on est andar de las gaussianas como dmax = 2m1 (19)
donde dmax es la m axima distancia entre los centros. Todas las gaussianas tendr an la misma desviaci on. 3. Para hallar los coecientes se sugieren tres alternativas: Utilizar resultados de la teor a de regularizaci on generalizada. Esto implica elegir un valor para y utilizar la ecuaci on (17). Utilizar la pseudoinversa de G, siendo w = G+ d (ver secci on 3.3.4). Utilizar alg un m etodo iterativo como ser el LMS o el RLS. Para que este m etodo funcione razonablemente bien, es necesario que las muestras sea representativas, ya que en funci on de ellas se toman los centros. Tambi en se debe cumplir que la relaci on entrada-salida real no presente grandes picos ni zonas demasiado planas. En dicha situaci on se deber a variar el valor de en los diferentes centros. 3.4.2 M etodo H brido
Este m etodo pretende hacer uso de t ecnicas diferentes: una no supervisada y una supervisada. Para hallar la ubicaci on de los centros se utiliza una t ecnica no supervisada. Para hallar los coecientes se usa una t ecnica supervisada. Se pretende ubicar los centros en las zonas del espacio de entrada que tengan mayor densidad. Para esto la idea es ubicar neurona en posiciones arbitrarias y luego, por alg un algoritmo, lograr que est as se muevan hacia las zonas m as densas. Para ubicar las zonas m as densas se deben conocer valores de entradas a la red, pero no es necesario conocer las salidas. De aqu que sea un aprendizaje no supervisado. Un posible algoritmo para lograr esto es el siguiente: 1. Inicializaci on: Se toman valores iniciales para los centros ti (0) con i = 1, . . . , m1 . Se requiere que sean todos diferentes. 2. Muestreo: Se obtiene una muestra aleatoria xj del espacio de entrada. 3. Competencia: Se halla el ndice kj correspondiente al centro cuya distancia al vector xj es menor, o sea, kj = ind mink xj tk (j ) 4. Ajuste: Se reubican los centros seg un la regla: tk (j ) = tk (j ) + 1 (xj tk (j )) tk (j ) si k = kj en otro caso (20)
Esta regla acercar al centro ganador al vector de entrada xj y mantiene los dem as quietos. Existen otras reglas que penalizan a los centros perdedores, haciendo tk (j +1) = tk (j )2 (xj tk (j )) si k = kj .
16
Los pasos 2, 3 y 4 se realizan tantas veces como n umero de muestras del espacio de entrada se decidan utilizar para al aprendizaje de los centros. Este algoritmo es la base de las redes neuronales competitivas, en las que no se pretende simular un sistema sino clasicar generar una partici on en un cierto espacio, es decir, agrupar entradas seg un caracter sticas comunes. Una vez ubicados los centros, se deben hallar los coecientes wi . Para esto se pueden usar los m etodos propuestos para el caso de los centros jos. Tambi en en caso de trabajar con exponenciales resta elegir la desviaci on est andar i de cada funci on. Se aspira en este m etodo tener una convergencia m as veloz en los coecientes que en el m etodo anterior ya que los centros se eligieron con un m etodo m as elaborado. 3.4.3 M etodo del Gradiente
La idea es proceder de forma similar a lo que se hace en el algoritmo LMS. Se dene una funci on de costo E cuyo valor en el instante k es: 1 E (j ) = |e(j )|2 2 donde e(j ) es la diferencia entre la salida deseada en el instante j y la salida de la red con los valores de los coecientes en dicho instante:
m1
e(j ) = d(j )
i=1 m1
wi (j )G( x(j ) ti (j ) ) wi (j )e
i=1
x(j )ti (j ) 2 2 2 (j ) i
= d(j ) 1 E (j ) = 2
m1
d(j )
i=1
wi (j )e
x(j )ti (j ) 2 2 2 (j ) i
La funci on de costo depende de ti (j ), wi (j ) y de i (j ) para i = 1, 2, . . . , m1 . Las derivadas parciales respecto a dichas variables dan:
1 E = d(j ) wi (j )e ti (j ) i=1
x(j )ti (j ) 2 2 (j ) i
wi (n)e
x(j )ti (j ) 2 2 2 (j ) i
x(j ) ti (j ) 2 (j ) i
= e(j )wi (j )G( x(j ) ti (j ) )
x(j ) ti (j ) 2 (j ) i
E = e(j )wi (j )G( x(j ) ti (j ) ) wi (j ) E x(j ) ti (j ) = e(j )wi (j )G( x(j ) ti (j ) ) 2 2 (j ) i (j ) i El gradiente de nuestra funci on de costo ser a: E =
E E E E E E ,..., , ,..., , ,..., t1 (j ) tm1 (j ) w1 (j ) wm1 (j ) 1 (j ) m1 (j )
Como todos los m etodos basados en el gradiente, para buscar un m nimo se debe moverse en direcci on opuesta al gradiente, ya que el gradiente indica el sentido de mayor crecimiento de una funci on. Se partir a de un valor inicial, y se ir an ajustando los par ametros de acuerdo a la regla del gradiente. Es un m etodo de aprendizaje supervisado. Se realizar an N ajustes, siendo N el n umero de parejas entrada-salida conocidas. En algunos casos se suele tomar pasos adaptivos diferentes en cada tipo de par ametro, o sea,
17
tomar t , , w y ajustar los par ametros as : ti (j + 1) = ti (j ) + t e(j )wi (j )G( x(j ) ti (j ) ) wi (j + 1) = wi (j ) + w e(j )wi (j )G( x(j ) ti (j ) )
2 2 i (j + 1) = i (j ) + e(j )wi (j )G( x(j ) ti (j ) )
x(j ) ti (j ) 2 (j ) i x(j ) ti (j ) 4 (j ) i
2
(21) (22) (23)
18
3.5
Aplicaci on: Decisi on de s mbolo enviado en un Sistema de Comunicaci on
Un sistema de comunicaciones esta formado b asicamente por tres partes: transmisor, canal y receptor. Si el sistema es de tiempo continuo, la etapa de transmisi on consiste en muestrear la se nal a transmitir, cuanticarla y codicarla. Por el canal se transmite la se nal codicada y al llegar a la recepci on se decodica y luego se pasa por alg un tipo de reconstructor. En la gura 9 se observa un esquema de un sistema de comunicaci on. Si se tiene un cuanticador de n bits, al cuanticar una muestra, se obtiene un valor entre 2n posibles y

!
Figura 9:
Sistema de Comunicaci on
se corresponder a con una secuencia de n bits. Existen muchas formas de enviar la secuencia por el canal. Se puede enviar un s mbolo por cada bit o bien agrupar los bits a transmitir, envi andose un s mbolo por cada m bits. En el primer caso, hay solo dos s mbolos posibles a transmitir y se dice que el alfabeto es binario. En el segundo caso hay 2m s mbolos posibles y el alfabeto es m-ario. El codicador toma cada s mbolo, lo codica y lo env a por el canal. A la salida del canal se decodica y se deber a obtener el s mbolo transmitido. En la pr actica esto no sucede ya que el canal introduce ruido y la decodicaci on nunca es perfecta. El canal suele actuar como un ltro pasabajos y en la decodicaci on se suele tener presencia de ISI (interferencia inter-simb olica). Como consecuencia a la salida del decodicador se debe poner alg un tipo de elemento que decida a partir de la salida de este, cu al de los s mbolos del alfabeto fue enviado. A este nuevo elemento lo llamaremos selector. Este selector tendr a una cierta probabilidad de error a la que llamaremos Pe . La performance del sistema de comunicaci on se medir a en funci on de Pe , que depender a de tres factores: Calidad del canal (ancho de banda y potencia del ruido que introduzca). Tipo de codicaci on elegido. Tipo de selector elegido. Notemos que una codicaci on m-aria tendr a a mayor m mayor tasa de bits por s mbolo, lo que implica que cada s mbolo transmitido lleva consigo m as informaci on. Como contraparte a mayor m m as dif cil ser a tener una regla de decisi on con baja Pe . Un camino posible para la elecci on del selector es realizar un an alisis de la distribuci on de los ruidos introducidos y posteriormente tomar una regla de selecci on de forma de minimizar Pe . Este camino tiene dos inconvenientes: es un trabajo te orico arduo encontrar un buen modelo para el ruido y adem as se agrega una cierta probabilidad de error por errores en dicho modelo. En [4] se profundiza sobre este camino. Tambi en se profundiza sobre diferentes tipos de codicaci on4 . El modelo para el ruido suele ser aditivo, blanco y gaussiano. Se pretende en esta aplicaci on crear un selector que sea una RNA. Requerir a una etapa de aprendizaje. Tomaremos el caso de alfabeto binario, con el n de que la RNA tenga una sola salida. Para poder decidir en un alfabeto m-ario ser a necesario contar con log2 (m) salidas. Trabajaremos con redes RBF y evaluaremos la performance de cada uno de los algoritmos de aprendizaje propuestos en la secci on 3.4.
4 La codicaci on se realiza a su vez en etapas: una primer etapa en la que se decide que se va a codicar y surgen t ecnicas como PCM diferencial (DPCM) y la modulaci on delta(MD), una segunda etapa en que codica los pulsos de forma unipolar o bipolar, con o sin retorno a cero, y una tercer etapa llamada conformaci on, donde se le da una forma a los continua pulsos, como ser por ejemplo los pulsos de Nyquist.
19
3.5.1
Planteo del problema en t erminos de RNA
Los s mbolos factibles de ingresar al codicador ser an dos vectores de R2 a los que llamaremos 1 y 2 (el alfabeto ser a A = {1 , 2 }). Cada entrada x(i) a la RNA ser a la salida del decodicador, s mbolo (i) codicado contaminado por un ruido (i). Asumiremos que el ruido es aditivo, siendo por tanto x(i) = (i) + (i). La salida y que se desea obtener en la RNA es: y (i) = 1 0 si (i) = 1 si (i) = 2 (24)
Llamaremos H1 al suceso = 1 y H2 al suceso = 2 . La probabilidad de que suceda H1 la llamaremos p1 y la de que suceda H2 la llamaremos p2 . Como el alfabeto es binario p1 = 1 p2 . Asumiremos una distribuci on para el ruido, si bien no ser a la misma para ambos s mbolos. Para ambos s mbolos asumiremos ruido gaussiano de media nula, pero tendr a varianzas 1 y 2 . Se puede expresar entonces la distribuci on de x condicionada al s mbolo enviado como: fx (x|H1 ) = fx (x|H2 ) =
1 e 2 21 1 2 e 22
x1 2 2 21
(25) (26) Dado que estamos asumiendo una
x2 2 2 22
Las guras 10 y 11 nos muestran la forma de dichas distribuciones.
0.16 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0 5 5 0 0 5 5
Figura 10:
Funci on de densidad de x|H1
cierta distribuci on para el ruido, se puede realizar un an alisis te orico sobre cual ser a la mejor forma de tomar la decisi on. La forma de lograr esto es calcular la probabilidad de error Pe y minimizarla. Tomar una regla de decisi on es decir decido H1 si x Z1 decido H2 si x Z2 siendo Z1 y Z2 dos regiones disjuntas cuya uni on es R2 . La probabilidad de error valdr a: Pe = p1
Z2
fx (x|H1 )dx + p2
Z1
fx (x|H2 )dx fx (x|H2 )dx

Z1
= p1 (1
Z1
fx (x|H1 )dx) + p2
= Pe = p1 +
Z1
[p2 fx (x|H2 ) p1 fx (x|H1 )] dx
(27)
20
0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0 5 5 0 0 5 5
Figura 11:
Funci on de densidad de x|H2
La forma optima de tomar la decisi on ser a que Z1 est e formada por todos aquellos puntos que satisfacen p2 fx (x|H2 ) p1 fx (x|H1 ) < 0. Dicho de otra forma, la decisi on ser a: fx (x|H2 ) p1 decido H1 si fx (x|H1 ) < p2 (28) decido H si fx (x|H2 ) > p1 2 fx (x|H1 ) p2 Utilizando las ecuaciones (25) y (26), tenemos que la frontera de decisi on se transforma en: e x 2 x
2 2 2 (1 2 )
x1 2 2 21
x2 2 2 22
2 p1 1 2 p2 2 2 p1 1 2) p2 2 2 p1 1 2) p2 2
2 1
x 1 2
2
2 2 2 2 = 21 2 ln(
2 2 +
2 2 2 2 2 1 2 x, 1 2 2 1 = 21 2 ln( 2
2 2 2 1 1 2 2 1 2 2 2 1 2 ln( p 2 )+ 1 2 2 1 p2 2 2 x, = 2 2 ) 2 2 ) (1 (1 2 2 2 2 2 1 1 2 1 2 ln( p p2 2 )+
2
2 1
2 2 2 2 1 x 1 2 2 (1 2 )
2 2
2
2
2 1
2 2 ) (1 2 2
2 2 1 2 2 1 2 2 (1 2 )
2 2 1 2 2 1 2 2 (1 2 )
2 1
2 2 1 2 2 2
1 2 2 2 1 2
+ 2ln(
2 p1 1 2) p2 2
La frontera de decisi on es entonces una circunferencia C (xc , r) siendo: 2 2 2 1 centro xc = 1 2 ( 2 2 ) radio r2 =

2 2 1 2 2 2 1 2 1 2
1 2 2 2 1 2
1 1 + 2ln( p p2 2 ) 2
Hemos hallado de forma te orica cual es la regi on de decisi on optima. La gran diferencia entre este an alisis te orica y el que realizaremos con RNA es que para poder decidir de forma optima fue necesario conocer todo sobre la distribuci on de los s mbolos y su ruido, lo que implicar a conocer a la perfecci on el canal y la forma de codicaci on, mientras que trabajando con RNA no es necesario conocer nada m as que un conjunto de entradas y salidas. 21
Elecci on de valores para la simulaci on Los valores elegidos fueron: Notaci on 1 2 2 1 2 2 p1 p2 Valor (0, 0)T (2, 0)T 1 4 0.5 0.5 Descripci on s mbolo del alfabeto s mbolo del alfabeto varianza del ruido que afecta a 1 varianza del ruido que afecta a 2 probabilidad de aparici on del s mbolo 1 probabilidad de aparici on del s mbolo 2
T xc = ( 2 3 , 0) r 2.34
Podemos calcular ahora centro y radio de la frontera de decisi on: centro radio
Tambi en se puede calcular la probabilidad de error que se tendr a en caso de que el selector decida de forma optima, utilizando la ecuaci on (27). Resolviendo la integral de forma num erica se tiene que Pe = 0.1849. En consecuencia la probabilidad de que decida correctamente es Pc = 0.8151. En la pr oxima secci on procederemos a simular las t ecnicas de aprendizaje con estos valores. Buscaremos para cada t ecnica averiguar cual es el porcentaje de aciertos y cual es la frontera de decisi on que adopta. Sabemos te oricamente por como se generar an los datos que una cota para el porcentaje de aciertos es el 81.51%. 3.5.2 Simulaciones
La notaci on que utilizaremos siempre ser a Notaci on m1 N P x d xP dP K Descripci on no de neuronas en la capa oculta no de muestras disponibles para el aprendizaje no de muestras utilizadas para evaluar el resultado obtenido vector de muestras de entrada (N x2) vector de muestras de salida (N x1) vector de muestras de entrada (P x2) vector de muestras de salida (P x1) par ametro de regularizaci on no de ensambles considerados para promediar
Una descripci on de los programas utilizados para las simulaciones se encuentra en el ap endice A. Simulaci on No 1 : Se brindan a continuaci on los resultados y observaciones de simular los resultados de la Teor a de Regularizaci on(ver secci on 3.3). Se tomo siempre N = m1 , pero se probo con diferentes valores de N y . Para la elecci on de se sigui o el criterio de la ecuaci on (19). Se tomo P = 1000 y K = 20. Resultados Tabla de estimaciones de Pe N \ 20 50 100 200 0 0.443 0.459 0.472 0.475 0.05 0.373 0.322 0.300 0.280 0.1 0.366 0.319 0.294 0.279 0.2 0.361 0.315 0.293 0.277 22 0.3 0.363 0.316 0.294 0.279 0.5 0.371 0.322 0.298 0.286 1 0.405 0.343 0.314 0.307
Observaciones Hay una gran dependencia con el par ametro . Los resultados para = 0 son bastante pobres. Recordemos que este caso se corresponde con realizar una interpolaci on estricta. Un buen valor para ser a = 0.2. Respecto al n umero de muestras N , la tabla parece indicar que a mayor N mejor ser an los resultados, sin embargo se suelen presentar problemas en el numero de condici on de la matriz de funciones de Green que se debe utilizar para calcular los coecientes de la RNA, adem as de que el tiempo de procesamiento crece en gran forma, ya que dicha matriz es de dimensi on N . Un valor razonable ser a tomar N = 100 En el mejor caso, se est a teniendo un porcentaje de acierto apenas por encima del 70%. Se est a aproximadamente un 10% por debajo del optimo. Simulaci on No 2 : Se simula ahora utilizando el m etodo de los Centros Fijos descrito en la secci on 3.4.1. Los valores de N , m1 y utilizados se muestran en la tabla. Para la elecci on de se sigui o el criterio de la ecuaci on (19). Se tomo P = 1000 y K = 20. Resultados Tabla de estimaciones de Pe N, m1 \ 20,4 50,10 100,20 200,50 500,50 1000,50 5000,50 Observaciones No hay grandes variaciones con . Si bien los mejores valores se dan para = 0.2, en caso de querer simplicar el problema, se podr a tomar = 0 sin mayores perdidas. A mayor N mejor ser an los resultados. Dejando m1 = 50 se realiza aproximadamente la misma cantidad de operaciones independientemente del N elegido, ya que la mayor dicultad es la inversi on de la matriz GT G + GT a 0 que tendr dimensi on m1 . Se alcanzan porcentajes de acierto del orden del 77%, muy cercanas al m aximo te orico. 0 0.371 0.323 0.271 0.264 0.238 0.238 0.226 0.1 0.372 0.322 0.268 0.252 0.237 0.238 0.226 0.2 0.375 0.323 0.271 0.251 0.238 0.238 0.227 0.3 0.378 0.327 0.274 0.251 0.238 0.238 0.227 0.5 0.384 0.332 0.280 0.253 0.238 0.239 0.228 1 0.395 0.341 0.293 0.261 0.242 0.241 0.229
23
Simulaci on No 3 : Se simula ahora utilizando el m etodo h brido descrito en la secci on 3.4.2. Cada tabla corresponde a un valor de 1 . Para la elecci on de se sigui o el criterio de la ecuaci on (19). Se tomo P = 1000 y K = 20. El no de centros tomado en cada caso es m1 , el no de muestras tomadas para la etapa competitiva fue N alculo de coecientes se utilizan N 2 m1 . Para la etapa del c 2 muestras. Resultados Tabla de estimaciones de Pe para 1 = 0.1 : N, m1 \ 20,4 50,10 100,20 200,50 1000,50 0 0.407 0.419 0.321 0.339 0.235 0.1 0.409 0.405 0.315 0.310 0.235 0.2 0.414 0.411 0.317 0.306 0.235 0.3 0.420 0.417 0.320 0.308 0.236 0.4 0.426 0.423 0.323 0.310 0.238 0.5 0.429 0.428 0.326 0.315 0.239 1 0.455 0.432 0.344 0.326 0.247 2 0.478 0.447 0.379 0.346 0.257
Tabla de estimaciones de Pe para 1 = 0.3 : N, m1 \ 20,4 50,10 100,20 200,50 1000,50 0 0.408 0.360 0.309 0.322 0.244 0.1 0.407 0.353 0.290 0.274 0.246 0.2 0.413 0.359 0.295 0.275 0.249 0.3 0.419 0.365 0.298 0.278 0.252 0.4 0.427 0.367 0.303 0.282 0.254 0.5 0.436 0.372 0.306 0.285 0.256 1 0.466 0.389 0.320 0.301 0.260 2 0.481 0.423 0.347 0.329 0.273
Tabla de estimaciones de Pe para 1 = 0.9 : N, m1 \ 20,4 50,10 100,20 200,50 1000,50 Observaciones No hay grandes variaciones con . Cuando 1 crece los mejores resultados se dan a menor . 24 0 0.421 0.341 0.331 0.334 0.234 0.1 0.418 0.337 0.319 0.298 0.235 0.2 0.422 0.340 0.316 0.302 0.237 0.3 0.427 0.346 0.318 0.303 0.237 0.4 0.431 0.357 0.320 0.303 0.238 0.5 0.436 0.359 0.324 0.304 0.239 1 0.458 0.388 0.338 0.313 0.245 2 0.494 0.473 0.372 0.345 0.252
Para 1 chico, los resultados son muy similares a los del m etodo de los centros jos. A mayor N mejor ser an los resultados. El n umero de operaciones est a gobernado por el valor de m1 . Los resultados son similares a los de la simulaci on 2. Se alcanzan porcentajes de acierto del orden del 77%, muy cercanas al m aximo te orico.
3.5.3
Conclusiones de la Aplicaci on
Para implementar las RNA no fue necesario conocer ninguna propiedad estad stica del ruido. Los resultados te oricos fueron un poco mejores que los de las RNA, pero en la realidad no se conocer a exactamente las propiedades del ruido, y cualquier modelo que uno realice para el mismo tendr a un cierto error. En consecuencia los resultados obtenidos con las RNA ser an probablemente superiores a los te oricos. El m etodo de los centros jos, pese a ser el m as simple, dio muy buenos resultados. Tiene la gran ventaja de poder trabajar con N muy grande sin aumentar mayormente el no de cuentas, siempre y cuando se mantenga m1 jo. El par ametro de regularizaci on inuy o de manera perceptible u nicamente en la simulaci on de los resultados de la Teor a de Regularizaci on (Simulaci on 1). En dicha simulaci on, si se tomaba N muy grande, aparec an con frecuencia matrices mal condicionadas. Cada simulaci on implica un n umero realmente grande de cuentas. Trabajando con un procesador Pentium II con 256M B de memoria RAM, fue necesario para algunas simulaciones hasta 15 minutos. Si bien en la implementaci on de los algoritmos en Matlab no se intento minimizar el n umero de cuentas, y quiz as sea posible implementarlos de forma un poco mas veloz, se puede concluir que el uso de los algoritmos de RNA son prohibitivos en caso de no disponer de una gran capacidad de procesamiento. La aplicaci on se realiz o con codicaci on binaria (2 s mbolos) con el n de poder comparar resultados te oricos y pr acticos. Realizar un an alisis te orico de cual es la zona en la que se decide por uno u otro s mbolo con m as de 2 s mbolos es realmente complicado. Trabajando con redes neuronales esto no implicar a gran esfuerzo, bastar a con tomar alguna salida m as.
25
Conclusiones
El objetivo que persigue el estudio de las RNA es poder trabajar con sistemas complejos, dif ciles de modelar en forma te orica. Para implementar una RNA, es necesario conocer del sistema apenas una conjunto de parejas entrada-salida. Como contrapartida, es necesario disponer de una gran capacidad de procesamiento. Se han analizado dos modelos de RNA: las Redes de Perceptones y las Redes RBF. Las Redes de Perceptrones son el modelo m as simple de RNA, basados en el funcionamiento de las Redes Neuronales Biol ogicas. Las Redes RBF tienen una mayor capacidad para reslver problemas de clasicaci on. Su arquitectura est a basada en resultados de la Teor a de Regularizaci on, que pretende aproximar las muestras con una supercie suave. Los dos modelos estudiados son modelos de RNA en los que el aprendizaje se realiza de forma supervisada y la propagaci on se realiza siempre hacia adelante. Queda pendiente el estudio de RNA de aprendizaje no supervisado y RNA recursivas.
26
Programas de Matlab
Los programas se encuentran en un disco adjunto. Haciendo help xxx se obtendr a una descripci on detallada de los par ametros que recibe y devuelve la funci on xxx. Programa simulacion1.m simulacion2.m simulacion3.m met0.m met1.m met2.m diametro.m F.m muestras.m green.m pdf normmult.m graf icas3d.m runge.m Utilidad Realiza la simulaci on 1 Realiza la simulaci on 2 Realiza la simulaci on 3 M etodo de T. de la Regularizaci on. M etodo de Centros Fijos M etodo H brido Calcula el di ametro de un conjunto de puntos Halla la salida a la RBF en xP Genera muestras entrada-salida Arma la matriz de Green Variable Normal Multivariada Gr acas de las pdf de los s mbolos Gr aca del fen omeno de Runge
Referencias
[1] Haykin,S. : Adaptive Filter Theory (Prentice-Hall 1996) [2] Haykin,S. : Neural Networks : A Comprensive Foundation (Prentice-Hall 1999) [3] Freeman,J.A./Skapura,D.M. : Neural Networks: Algorithms, Aplications and Programming Techniques (Addison Wealey 1991) [4] Bruce Carlson,A. : Communication Systems (McGraw-Hill 3edici on) [5] Alberts,B./Bray,D./Lewis,J./Ka,M./Roberts,K./Watson,J. : (Omega 1992 2edici on) Biolog a Molecular de La C elula
[6] Thiria/Lechevallier/Gascuel/Canu : Statistique et m ethodes neuronales (Dunod 1997) [7] Grompone, R. :Redes Neuronales (jirafa@i.com.uy 2001) [8] Facultad de Ciencias UABC : Curso Redes Neuronales Articiales (ascencio@faro.ens.uabc.mx)
27
Indice General
1 Introducci on 2 El primer modelo: El Perceptr on 2.1 El modelo biol ogico . . . . . . . . . . . . . . . . . . . . . . . 2.2 El Perceptr on . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Capacidad de clasicaci on de un Perceptr on . . . . . . . . . 2.4 Ejemplo: la funci on EXOR . . . . . . . . . . . . . . . . . . 2.5 Algunos resultados sobre Redes de Perceptrones Multicapa 1 3 3 3 4 5 7 8 8 8 9 10 13 14 14 15 16 16 17 19 20 22 25 26 27
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
3 Redes RBF 3.1 Separaci on de Patrones - Teorema de Cover . . . . . . . . . . . . . . . . . 3.2 Arquitectura de las redes RBF . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Como elegir la base de funciones: Teor a de Regularizaci on . . . . . . . . 3.3.1 Obtenci on de la soluci on . . . . . . . . . . . . . . . . . . . . . . . . 3.3.2 Elecci on del operador diferencial . . . . . . . . . . . . . . . . . . . 3.3.3 Resumen de resultados de la Teor a de Regularizaci on . . . . . . . 3.3.4 Generalizaci on de las redes RBF . . . . . . . . . . . . . . . . . . . 3.4 T ecnicas de aprendizaje en las redes RBF . . . . . . . . . . . . . . . . . . 3.4.1 M etodo de Centros Fijos . . . . . . . . . . . . . . . . . . . . . . . . 3.4.2 M etodo H brido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.3 M etodo del Gradiente . . . . . . . . . . . . . . . . . . . . . . . . . 3.5 Aplicaci on: Decisi on de s mbolo enviado en un Sistema de Comunicaci on . 3.5.1 Planteo del problema en t erminos de RNA . . . . . . . . . . . . . 3.5.2 Simulaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5.3 Conclusiones de la Aplicaci on . . . . . . . . . . . . . . . . . . . . . 4 Conclusiones A Programas de Matlab
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
28

Redes Neuronal Es

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Redes Neuronal Es

Caricato da

Copyright:

Formati disponibili

REDES NEURONALES

Estructura de la RNA para detecci on de letras

El primer modelo: El Perceptr on

Modelo de una neurona

caracter stica son: (x) =

Modelos para : azul-McCulloc-Pits rojo-lineal con saturaci on negro-sigmoidal

Capacidad de clasicaci on de un Perceptr on

Ejemplo: la funci on EXOR

Red de Perceptrones de dos capas

Algunos resultados sobre Redes de Perceptrones Multicapa

sumador ponderado es como un Perceptr on que no aplica a la salida la funci on de umbral .

Arquitectura de las redes RBF

para alg un c > 0

2. Multicu adricas inversas ( x ti ) = 1 x ti

para alg un c > 0

para alg un > 0

para alg un > 0

Como elegir la base de funciones: Teor a de Regularizaci on

Fen omeno de Runge

F (xi ))2 que es una medida del error cuadr atico.

La cantidad E que se propone minimizar es: E (F ) = ES (F ) + EC (F ) (5)

A continuaci on obtendremos la funci on F que minimice (5):

2. El diferencial del primer t ermino vale:

d(ES (F, h)) = h,

(di F (xi ))xi

Se utiliza el producto interno f, g = f 2= f 2.

f g . La norma que induce este producto es la norma 2,

Demostraci on: d(ES (F, h)) = [ d 1 d ES (F + h)] =0 = [ d 2 d

(di F (xi ) h(xi ))2 ] =0

[di F (xi ) h(xi )]h(xi )] =0 =

[di F (xi )]h(xi )

(di F (xi ))xi

[D(F + h)]2 dx] =0

(D(F )) = D(h), D(F ) = h, D

(D(F )) (di F (xi ))xi + h, D

Como deseamos que d(E (F , h)) = 0, se deber a cumplir:

(di F (xi ))xi ] = 0

(di F (xi ))xi

La funci on de Green satisface las siguientes propiedades:

siendo (di F (xi ))xi

(di F (xi ))xi

(di F (xi ))G( x xi )

1 Denamos wi = (di F (xi )) para i = 1, . . . , N . Tenemos entonces que N

G(x1 , xN ) G(x2 , xN ) . . . G(xN , xN )

el operador Laplaciano. La funci on de Green que le corresponde es: G(x, xi ) = e

La soluci on nalmente ser a: F (x) =

Resumen de resultados de la Teor a de Regularizaci on

Los elegiremos de forma tal de minimizar el nuevo funcional de costo

podemos expresar el primer termino como de que: D(F )

. Para reescribir el segundo t ermino nos valdremos

wi wj G(x, ti ), L(G(x, tj )) wi wj G(x, ti ), (x tj )

G(t1 , tm1 ) G(t2 , tm1 ) . . .

En caso de tomar = 0 se llegar a a que w = G+ d siendo G = (G G)

T ecnicas de aprendizaje en las redes RBF

M etodo de Centros Fijos

= e(j )wi (j )G( x(j ) ti (j ) )

E E E E E E ,..., , ,..., , ,..., t1 (j ) tm1 (j ) w1 (j ) wm1 (j ) 1 (j ) m1 (j )

(21) (22) (23)

Aplicaci on: Decisi on de s mbolo enviado en un Sistema de Comunicaci on

Planteo del problema en t erminos de RNA

(25) (26) Dado que estamos asumiendo una

Las guras 10 y 11 nos muestran la forma de dichas distribuciones.

0.16 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0 5 5 0 0 5 5

Funci on de densidad de x|H1