GRADIENTE El objetivo del aprendizaje o entrenamiento de redes neuronales es reducir al mnimo los errores de salida ajustando de los pesos de la red. Definimos una funcin error E(wij) que mide cuan lejos se encuentra la red actual de la red neuronal deseada(entrenada). Las derivadas parciales de la funcin error nos dice que direccin necesitamos movernos en el espacio del peso para reducir el error. La tasa de aprendizaje especifica el tamao de los pasos en el peso para cada iteracin en la ecuacin de actualizacin del peso. Las iteraciones continuan hasta que el error sea lo suficientemente pequeo. Si escogemos para las neuronas funciones de activacin con derivadas que son formas simples, podemos hacer que el clculo de la actualizacin de los pesos sean muy eficientes.
ENTRENAMIENTO DE UNA RED
NEURONAL DE UNA SOLA CAPA EN LAZO ABIERTO
el conjunto de patrones de entrenamiento que desea que la red
Tome
aprenda.
Configure la red con unidades totalmente conectadas a las salidas
utilizando vas de conexin con pesos. Genere los pesos iniciales randmicos. Seleccione una apropiada funcin de error E(wij) y tasa de aprendizaje Aplique la actualizacin de los pesos a cada peso wij para cada patrn de entrenamiento p. Una serie de actualizacin de todos los pesos para todos los patrones de entrenamiento se llama poca de entrenamiento. Repita el paso 5 hasta que la funcin de error de la red sea suficientemente pequeo.
DERIVADA DE LA FUNCIN SIGMOIDE
Utilizando la regla de la cadena podemos decir:
LA REGLA DELTA GENERALIZADA
Si utilizamos la funcin de activacin sigmoide, una red de una sola capa tiene salidas dadas por: Utilizando propiedades derivativas de la sigmoide, la ecuacin general de actualizacin del peso es:
CONSIDERACIONES GENERALES PARA EL METODO DE DESCENSO DE GRADIENTE
Es necesario comprobar la validez de proceso de los datos de
entrenamiento? Si es as, cmo? Cmo elegimos los pesos iniciales de la que comenzamos la capacitacin? Cmo elegir una tasa de aprendizaje apropiada? Hay que cambiar los pesos despus de cada patrn de entrenamiento, o despus de todo el conjunto? Son algunas de las funciones de activacin / transferencia mejores que otras? Cmo podemos evitar puntos planos en la funcin de error? Cmo podemos evitar mnimos locales en la funcin de error? Cmo sabemos cundo debemos parar el entrenamiento?.