Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
(w1,w2)
(w1+w1,w2 +w2)
2
INTELIGENCIA ARTIFICIAL Ing. Ricardo Andrs Castillo, Ph.D.
ALGORITMOS DE ENTRENAMIENTO DE REDES NEURONALES
APRENDIZAJE SUPERVISADO
APRENDIZAJE NO SUPERVISADO
Las neuronas de la capa oculta esconden sus salidas (para estas no hay forma
de determinar una salida deseada).
Usualmente las redes neuronales incorporan tres y en muy pocos casos cuatro
capas, incluyendo una o dos capas ocultas.
Aprenden caractersticas especificas de los datos de entrada
Seales de Entrada
1
x1 1 y1
1
2
x2 2 y2
2
j i
xj wij wki k yk
N
wNR wmN
R m ym
xR
Capa de Capa Capa de
entrada oculta salida
Seales de error
Paso 1: Inicializacin
Inicializar los pesos (incluido el umbral) con valores distribuidos uniformemente
dentro de un rango
2.4 2.4
,
Fi Fi
Fi es el numero total de entradas a la neurona i de la red. Esta inicializacin es
realizada para cada neurona
i (k ) ei ' (S i ) ; k = iteracin
para cada neurona modificando los pesos desde la capa de salida hasta la
primera capa.
p 1
i = 1, 2,., Numero de neuronas de la capa oculta.
p = 1, 2, 3,., m (Numero de neuronas de la capa inmediatamente adelante)
3
w31 1
x1 1 3 w53
w32 5
5 y5
w41
x2 2 4 w54
w42
Capa de 4 Capa de
entrada salida
1
Capa oculta
INTELIGENCIA ARTIFICIAL Ing. Ricardo Andrs Castillo, Ph.D.
RED NEURONAL MULTICAPA ALGORITMO DE BACKPROPAGATION
El efecto del umbral se representa por un peso , conectada a una entrada fija 1
Los pesos iniciales y umbrales son inicializados ramdomicamente as:
w31 = 0.5, w41 = 0.9, w32 = 0.4, w42 = 1.0, w53 = 1.2, w54 = 1.1,
3 = 0.8, 4 = 0.1, 5 = 0.3.
y3 sigmoid ( x1 w31 x2 w32 3 ) 1 / 1 e (10.510.410.8) 0.5250
y 4 sigmoid ( x1 w41 x2 w42 ) 1 / 1 e
4
(10.911.010.1)
0.8808
5 5 5 0 .3 0 .0127 0 .3127
Suma-Error Cuadratico
0
10
-1
10
-2
10
-3
10
-4
10
0 50 100 150 200
Epocas
INTELIGENCIA ARTIFICIAL Ing. Ricardo Andrs Castillo, Ph.D.
RESULTADOS FINALES ENTRENAMIENTO RED NEURONAL DE TRES CAPAS
1 1 0 Y
0.0155 0.0155 0.0010
e
0 1 1 0.9849 0.0151
1 0 1 0.9849 0.0151
0 0 0 0.0175 0.0175
y a tanh(bx)
Donde a y b son constantes, cuyos valores sugeridos son (LeCun, 1993):
a = 1.716 y b = 2/3
,
Inclusin del termino de momento (Regla delta generalizada)
Normalizar la entrada
El conjunto de entrada se normaliza para que tenga media cero y la
misma varianza
Protocolos de entrenamiento
Entrenamiento estocstico
Las muestras son elegidas al azar del conjunto de
entrenamiento y los pesos se actualizan por cada muestra
Entrenamiento en lnea
Cada muestra de entrenamiento es presentada una vez y
solamente una vez
No hay memoria para guardar muestras de entrenamiento
restriccion
w1 w1
Restriccion
w2
w2
INTELIGENCIA ARTIFICIAL Ing. Ricardo Andrs Castillo, Ph.D.
PARMETROS EN EL ALGORITMO DE BACKPROPAGATION
FACTOR DE APRENDIZAJE
Heurstica 1
Si el cambio de la suma de los errores cuadrticos tiene el mismo signo
algebraico para varias pocas sucesivas, entonces incrementar el factor de
aprendizaje .
Heurstica 2
Si el cambio de la suma de los errores cuadrticos para pocas sucesivas
alterna su signo, entonces el factor de aprendizaje , debe ser
decrementado.
Heurstica 3
Si la funcin energa del error en la poca actual, excede el valor previo en un
valor predefinido (tpicamente 1.04), el factor de aprendizaje es decrementado
(tpicamente multiplicndolo por 0.7) antes de calcular los nuevos pesos.
Heurstica 4
Si la funcin energa del error es menor que su valor anterior, el factor de
aprendizaje es incrementado (tpicamente multiplicndolo 1.05).
= 0.37 = 0.3 9
2 2
1 1
0 0
-1 -1
-2 -2 22
-2 -1 0 1 2 -2 -1 0 1 2
Suma-Error cuadratico
10
1
10
0
10
-1
10
-2
10
-3
10
-4
10
0 10 20 30 40 50 60 70 80 90 100
Epoca
1
Factor de aprendizaje
0.8
0.6
0.4
0.2
0
0 20 40 60 80 100 120
Epoca
INTELIGENCIA ARTIFICIAL Ing. Ricardo Andrs Castillo, Ph.D.
PARMETROS EN EL ALGORITMO DE BACKPROPAGATION
MOMENTO
Suma-Error cuadratico
1
10
0
10
-1
10
-2
10
-3
10
-4
10
0 20 40 60 80 100 120
Epocas
1.5
Factor de aprendizaje
0.5
-0.5
-1
0 20 40 60 80 100 120 140
Epocas
INTELIGENCIA ARTIFICIAL Ing. Ricardo Andrs Castillo, Ph.D.
ENTRENAMIENTO CON INCLUSION DE MOMENTO Y FACTOR DE APRENDIZAJE
ADAPTATIVO
Entrenamiento para 85 Epocas
2
10
Suma-Error cuadratico
1
10
0
10
-1
10
-2
10
-3
10
-4
10
0 10 20 30 40 50 60 70 80
Epoca
2.5
Factor de aprendizaje
1.5
0.5
0
0 10 20 30 40 50 60 70 80 90
Epoca
INTELIGENCIA ARTIFICIAL Ing. Ricardo Andrs Castillo, Ph.D.
ENTRENAMIENTO CON FACTOR DE APRENDIZAJE ALTO 1
15
10
w21,1 5
-5
-5 0 5 10 15
w11,1
0.8
15
10
w21,1
-5
-5 0 5 10 15
w11,1
15
= 0.95
10 = 0.7
= 4%
w21,1
-5
-5 0 5 10 15
w11,1
VALIDACIN CRUZADA
Conjunto de entrenamiento: 70% del conjunto total de patrones
Conjunto de test: 30 % conjunto total de patrones
Conjunto de validacin: patrones diferentes a los utilizados para
entrenamiento y test
El error de test es calculado despus de cada poca
Detener el entrenamiento si el error de validacin aumenta
Sobre-entrenamiento
C E 2 wi2
i
C E
wi
wi wi
C 1 E
cuando 0, wi
wi wi
EFECTOS
Previene que la red utilice pesos que no necesita.
Mejora en gran medida la capacidad de generalizacin de la red.
Previene que la red decremente el error hasta memorizar los errores de
medicin (ruido)
Se genera un modelo mas suave en donde las salidas cambian mas
lentamente cuando las entradas cambian.
Si la red tiene dos entradas similares, esta coloca la mitad del peso en cada
conexin en vez de colocar todo el peso en solo una.
w/2 w/2 w
0
x= x1 x2 xn
INTELIGENCIA ARTIFICIAL Ing. Ricardo Andrs Castillo, Ph.D.
REDES NEURONALES DE FUNCIONES DE
BASE RADIAL (RBF)
Tambin se demuestra que las redes RBF (Radial Basis Function) son
aproximadores universales.
x= x1 x2 xn
INTELIGENCIA ARTIFICIAL Ing. Ricardo Andrs Castillo, Ph.D.
REDES NEURONALES DE FUNCIONES DE BASE RADIAL (RBF)
CARACTERISTICAS
Pesos
m
f ( x) w ( x)
i 1
i i
Funciones base
fijas
INTELIGENCIA ARTIFICIAL Ing. Ricardo Andrs Castillo, Ph.D.
REDES NEURONALES DE FUNCIONES DE BASE RADIAL (RBF)
MODELO LINEAL m
f (x) wii (x)
i 1
w1 w2 wm
Descomposicion
Unidades 1 2 m Extracion de caracteristicas
ocultas Transformacion
Entradas
x= x1 x2 xn Vector de caracteristicas
INTELIGENCIA ARTIFICIAL Ing. Ricardo Andrs Castillo, Ph.D.
REDES NEURONALES DE FUNCIONES DE BASE RADIAL (RBF)
Centro: xi
Forma:
Gausiana
r2
r e 2 2
0 and r
Multicuadratica
r r 2 c2 c c 0 and r
Multicuadratica inversa
r c r 2 c2 c 0 and r
r2
r e 2 2
0 and r
1.5
1.0
0.5
r c r 2 c2 c 0 and r
1
0.9
0.8
0.7
0.6 c=5
0.5 c=4
0.4 c=3
0.3 c=2
0.2 c=1
0.1
0
-10 -5 0 5 10
RBF GENERAL
i x (x i ) (x i ) T 1
2 3
1
y1 ym
Unidades de salida
Interpolacin
Unidades ocultas
Proyeccin
y1 ym
Unidades de salida
Clases
Unidades ocultas
Subclases
y Funcion desconocida
a aproximar
Datos de entrenamiento
x
y Funcion desconocida
a aproximar
Datos de entrenamiento
x
Funciones base (Kernels)
INTELIGENCIA ARTIFICIAL Ing. Ricardo Andrs Castillo, Ph.D.
REDES NEURONALES DE FUNCIONES DE BASE RADIAL (RBF)
Funcion
y aprendida
x
Funciones base (Kernels)
m
y f (x) wii (x)
i 1
T x , y
p
(k ) (k )
Conjunto de entrenamiento
k 1
y ( k ) f x( k )
m
y f (x) wii (x)
Objetivo
i 1
2
min SSE y ( k ) f x( k )
p
k 1
w1 w2 wm
Entonces para todo k , se tiene
2
(k ) (k )
y wii x
p m
k 1 i 1
x= x1 x2 xn
INTELIGENCIA ARTIFICIAL Ing. Ricardo Andrs Castillo, Ph.D.
REDES NEURONALES DE FUNCIONES DE BASE RADIAL (RBF)
Aprendizaje del vector de pesos optimo
f x i i
p m
C y
2
Funcin a Minimizar (k ) (k )
w2
k 1 i 1
C f x( k )
2 y ( k ) f x( k )
p
0 2 j w j
w j k 1 w j
2 y ( k ) f x( k ) j x( k ) 2 j w j
p
k 1
j x x j j
p p
Entonces (k )
f * (k )
w *
x
j
(k )
y (k )
k 1 k 1
m
f (x) wii (x)
m
f (x) wi*i (x)
*
i 1 i 1
INTELIGENCIA ARTIFICIAL Ing. Ricardo Andrs Castillo, Ph.D.
REDES NEURONALES DE FUNCIONES DE BASE RADIAL (RBF)
Aprendizaje del vector de pesos optimo
p p
j
k 1
x (k )
f *
x (k )
w*
j j j
x (k )
y (k )
k 1
f jw y
T *
j
*
j
T
j j 1, ,m m = Numero de
neuronas de la capa
de salida
j j x , , j x
T Salidas de la neurona oculta j para
(1) ( p)
todos los patrones
f x , x
T Salidas de la neurona de salida j para
* * (1) * ( p)
Definir f ,f todos los patrones
y y , (1)
,y
( p) T
Salidas deseadas para todos los patrones
Tj f * j w*j Tj y j 1, ,m
Definir 1 , 2 , , m
f 1w y
T * * T
w* w , w ,
1 1 1
* * * T
,w
f 2 w y
T *
2
*
2
T
2
1 2 m
1
2
Tmf * m wm* Tm y
m
Entonces: f w y
T * * T
m * (1)
k k w x (1)
f * x (1) k 1 1 x 2 x m x (1) w*
(1)
m 1
(2)
1 x(2) 2 x(2) m x w2*
w
* (2) * (2)
f x w x
*
f k 1
* k k
*
* ( p) 1 x( p ) 2 x( p ) ( p) w
f x m x m
wk*k x ( P )
m
k 1
f w y
T * * T
w w y
T * * T
w w y
T * * T
w y
T * T
w y
* T 1 T
1
A y T
: Matriz de diseo
1
A : Matriz de variancia
INTELIGENCIA ARTIFICIAL Ing. Ricardo Andrs Castillo, Ph.D.
REDES NEURONALES DE FUNCIONES DE BASE RADIAL (RBF)
Aprendizaje del vector de pesos optimo - RESUMEN
T x , y
p
(k ) (k )
Conjunto de entrenamiento
k 1
m
y f (x) wii (x)
i 1
w T y A1T y
* T 1
1 , 2 , , m
j
x (1)
w1
*
y (1)
1
j
* (2)
x (2)
y 2
w
w* j
2
y
* ( p) m
j x ARTIFICIAL
Ing. Ricardo Andrs Castillo, Ph.D.
wm
INTELIGENCIA
( p)
y