Sei sulla pagina 1di 6

Redes de Funciones de Base Radial

Redes Neuronales

Instituto Tecnolgico Autnomo de Mxico


Otoo 2002

Osvaldo Comelli
Arturo Garmendia
Rafael Pealoza
Isis Pulido
Aram Zamora
Daniela Zenteno

Funciones de base radial


Una funcin de base radial es una funcin cuya
caracterstica principal es que su respuesta disminuye
(o aumenta) montonamente con la distancia a un
punto fijo llamado centro (o centroide). ste centro, la
mtrica utilizada y la forma precisa de la funcin son
parmetros de sta.
Una funcin de base radial tpica es la Gausiana, que
en su forma generalizada es:
1

h( x) exp ( x c) T 1 ( x c ) donde 1 es
2

la matriz de radios de la funcin, sta es la matriz de varianzas y covarianzas relacionada


a la funcin Normal multivariada que se utiliza en estadstica.
Una propiedad de estas funciones es que forman una base para el espacio de funciones, es
decir, cualquier funcin puede ser aproximada por medio de una combinacin lineal de
funciones de base radial (i.e. f ( x ) wi hi ( x ) ). Entonces, para un grupo de datos dado,
podemos intentar construir una combinacin lineal de este tipo que aproxime la funcin que
gener estos datos.
Para lograr esta aproximacin, realizaremos una regresin, con la peculiaridad de que en
lugar de usar como base a los monomios de distintos grados, utilizaremos funciones de base
radial.
Redes de Funciones de Base Radial
Redes de Funciones de Base Radial Simples:
Las redes de funciones de base radial simples tienen la arquitectura de un perceptrn de
tres capas donde la capa oculta tiene tantas neuronas como datos hay en nuestra muestra
(conjunto de entrenamiento). Las funciones de base radial correspondern a cad una de las
neuronas de la capa escondida.

Si los datos de la muestra son de la forma (xi,di) i=1,...,n , generamos n funciones de base
radial (hi(x) centradas en xi) y la matriz H como sigue:
h1 ( x1 ) h2 ( x1 ) hn ( x1 )
h ( x ) h ( x ) h ( x )
2
2
n
2
H 1 2

h1 ( x n ) h2 ( x n ) hn ( x n )

Los pesos de la capa de entrada a la capa oculta estn determinados por los patrones de
entrada por la frmula wk , j x k ,( j ) (es decir, la j-sima entrada del k-simo vector).
Suponemos que la funcin que gener los datos es de la forma f ( x) wi hi ( x) as, se
puede ver que los pesos (wi) que aproximan la muestra minimizando el error cuadrtico
medio con respecto a los datos se obtienen resolviendo el sistema de ecuaciones:
H w d

as, si podemos garantizar que H es invertible, obtendremos w H 1 d . sta w ser el


vector de pesos de la capa oculta a la capa de salida.
Para garantizar la invertibilidad de H, utilizamos el Teorema de Micchelli que dice que si
los datos de entrada en la muestra son todos distintos, entonces H ser de rango completo.
As, como podemos asegurar que los datos de entrada son todos distintos (ya que si no lo
fueran, eliminamos las repeticiones), H es invertible y por lo tanto ya calculamos w. As, la
red ya ha sido entrenada.
Redes de Funciones de Base Radial Generalizadas:
Las redes generalizadas son prcticamente idnticas a las simples, con la diferencia de
que se utilizan menos neuronas en la capa oculta, as, tenemos menos funciones de base
radial y menos pesos, provocando con esto un aumento en la eficiencia de la red, pero
disminuyendo su precisin. El nmero de neuronas en la capa oculta depender del
problema, y se ir calculando intentando minimizar el error, as, existen distintos mtodos
para encontrar cuntas y cules funciones de base radial sern suficientes para tener un
error razonablemente pequeo. En este caso nos topamos con la dificultad de que la matriz
H no es cuadrada, y por lo tanto tampoco invertible, sin embargo, el teorema de Micchelli
sigue siendo vlido en este caso, por lo tanto, podemos asegurar que la matriz ATA es
invertible (ya que el rango de ATA es igual al rango de A y A es de rango completo) y
entonces calculamos la pseudoinversa, as,

w HTH

H T d

Aprendizaje de las Redes de Funciones de Base Radial


En el aprendizaje se deben determinar:
los centros (diferente para cada gaussiana)
la varianza (comn entre las gaussianas)
los pesos que van de la capa escondida a la capa de salida
Existen tres enfoques para el aprendizaje de las redes:
1)Seleccin Fija de Centros, Pesos y Varianzas.
2)Aprendizaje Auto-organizado de los Centros
3)Aprendizaje Supervisado
Los dos primeros suponen funciones gaussianas normalizadas:
2
1

hc ( x) exp 2 x c

donde c es el centro, es la varianza (lo que regula la anchura).


El tercer caso, para ms versatilidad considera el caso general de las gaussianas (ver pgina
1).

Seleccin Fija de Centros, Pesos y Varianzas


CENTROS
Debemos considerar dos casos:
1) Si se trata de una red simple FBR:
El nmero de neuronas escondidas es el mismo que el nmero de muestras
que tenemos en el conjunto de entrenamiento.
Los Centros se fijan en los puntos de las muestra.
2) Si se trata de una red generalizada FBR:
El nmero de neuronas escondidas m, se escoge tal que sea menor que el
nmero de muestras del conjunto de entrenamiento. (Mientras ms pequea
sea la m menor ser la calidad de la aproximacin).
Se toman, aleatoriamente, m puntos del conjunto de entrenamiento que
correspondern a los centros. (Esto considerando que los datos del conjunto
de entrenamiento estn distribuidos en una forma representativa del
problema).
VARIANZAS
La varianza de todas las funciones de base radial se fija en:
d max
2m
Esto garantiza que las funciones no sean demasiado chatas ni demasiados picudas.
Como una alternativa, se pueden utilizar varianzas especficas para cada una de las
gaussianas, con mayor (una mayor anchura) en regiones hay menor densidad de datos.

PESOS
Se calculan por la regla ya mencionada:
w = ( HT H )-1 HT d
Aprendizaje Auto-organizado de los Centros
La varianza y los pesos se calculan de la misma forma que en la seleccin fija.
Se escoge un valor m para el nmero de neuronas escondidas. Los m centros se determinan
por un algoritmo de clusters. Lo que hace este algoritmo es colocar los centros en donde
se encuentran los datos significantes del conjunto de entrenamiento.
A grandes rasgos:
1.- Se inicializan los m centros al azar.
2.- Se elige un punto del conjunto de entrenamiento con cierta probabilidad.
3.- Se determina qu centro es el que se encuentra ms cercano a este punto.
4.- El ganador se acercar al punto en cuestin en una proporcin (tasa de aprendizaje) a
la distancia que hay entre ellos.
El resto de los centros permanecen igual.
5.- Se sigue este proceso hasta que no haya cambios relevantes en los centros.

Aprendizaje Supervisado
El primer paso es definir la funcin de error:
E

1
N
2
e

j 1 j
2

donde N es el tamao del conjunto de entrenamiento, y ej es la diferencia entre lo que


produce la red con la j-esima muestra y el valor deseado.
El resto del aprendizaje es tratar de minimizar esta funcin usando el mximo descenso
dado por el gradiente. A continuacin se muestra un resumen de los cambios que hay que
hacer en cada iteracin, hasta que el error caiga debajo de cierta tolerancia.
Pesos

Pesos

wi ( n 1) wi ( n) 1

E ( n)
wi ( n)

Centros
ci ( n 1) ci ( n) 2

Pesos

wi ( n 1) wi ( n) 1

E ( n)
wi ( n)

Centros
E ( n)
ci ( n)

Varianza
i1 ( n 1) i1 ( n) 3

wi ( n 1) wi ( n) 1

E ( n)
wi ( n)

Centros

ci ( n 1) ci ( n) 2
Varianza

E ( n)
ci ( n)

ci ( n 1) ci ( n) 2

E ( n)
ci ( n)

Varianza

E ( n) 1
E ( n)
E ( n)
i ( n 1) i1 ( n) 3
i1 ( n 1) i1 ( n) 3
i1 ( n)
i1 ( n)
i1 ( n)

Un punto importante a considerar es la eleccin del valor de m. Se puede empezar con un


nmero bajo de neuronas escondidas e ir aumentando una a una hasta llegar al nivel de
precisin deseado. Existen otras tcnicas estadsticas para estimar m en base al conjunto de
entrenamiento del que se dispone, y al problema particular. En general el tamao de m
ptimo para un tamao N dado de conjunto de entrenamiento es proporcional a N 1/3.
Comparacin entre Redes FBR y el Perceptrn Multicapa
1. Una RBF tiene slo una capa escondida mientras que MLP puede tener varias.
2. La capa escondida de una RBF es no lineal mientras que las capa de salida es lineal.
Mientras que en un MLP como clasificador las capas escondida y de salida
usualmente son no lineales; y cuando MLP se usa para sntesis funcional la capa de
de salida se elige como lineal.
3. El argumento de activacin de la funcin de activacin de una neurona escondida de
una RBF es una distancia euclidiana entre el vector entrante y el centro de esa
unidad. En MLP el argumento de la funcin de activacin de cada neurona
escondida es un producto interno del vector de entrada con el de pesos.
4. MLPs construyen aproximaciones globales, pero las RBF construyen
aproximaciones locales.

Bibliografa:
http://www.dsp.pub.ro/articles.html
http://neuralnetworks.ai-depot.com

"Neural Networks. A Comprehensive Foundation. Simon Haykin. Prentice-Hall, 1999"


Introduction to Radial Basis Function Networks. Mark J. L. Orr, 1996

Potrebbero piacerti anche