Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
1. El Perceptron 2. Descenso por gradiente 3. Regla Delta 4. Redes multicapa 5. Funciones de activacin 6. Retropropagacin 7. Computacin evolucionista
c 2002 DIT-ETSIT-UPM
transp. 1
s=1 si (
U) y (
i = 0)
j
c 2002 DIT-ETSIT-UPM
transp. 2
1 x x x
1 2
1 2
c 2002 DIT-ETSIT-UPM
0y
transp. 4
x 1 x2
xn r
Conjunto de entrenamiento:
c 2002 DIT-ETSIT-UPM
transp. 3
w 1
w n x n
11
0y
w 1
w n x n
while (!cond_term) { for (e=0; e<nEj; e++) for (i=0; i<=n; i++) { dw[i] = k*(r[e]-s[e])*x[i][e]; w[i] = w[i] + dw[i]; } } x[i][e] = xi para el ejemplo e
c 2002 DIT-ETSIT-UPM
transp. 5
n algoritmo de refuerzo
c 2002 DIT-ETSIT-UPM
xn
transp. 6
c 2002 DIT-ETSIT-UPM
c 2002 DIT-ETSIT-UPM
wi
K re
se xie
E wi
1 2 wi
re
se
re
Como se
w xe , se xie
E w
1 2
re
se 2 ;
E w0
E wn
K E
E w0
E wn
Elemento lineal: y x
sx
w x
E
w 2
w 1
transp. 7
K E
transp. 8
while (!cond_term) { for (i=0; i<=n; i++) dw[i] = 0; for (e=0; e<nEj; e++) for (i=0; i<=n; i++) dw[i] = dw[i] + k*(r[e]-s[e])*x[i][e]; for (i=0; i<=n; i++) w[i] = w[i] + dw[i]; } x[i][e] es xie: valor de la entrada i para el ejemplo e
while (!cond_term) { for (e=0; e<nEj; e++) for (i=0; i<=n; i++) w[i] = w[i] + k*(r[e]-s[e])*x[i][e]; }
c 2002 DIT-ETSIT-UPM
0 1 ):
1 2
re
c 2002 DIT-ETSIT-UPM
transp. 9
se
transp. 10
Delta aproxima Gradiente para K sucientemente pequeo, y requiere menos computacin Si hay varios mnimos (funciones de activacin no lineales), Delta mejor que Gradiente para evitar mnimos locales Perceptrn usa el error (discreto) a la salida del umbral; Gradiente/Delta, el error (continuo) de la combinacin lineal de entradas Perceptrn converge tras un nmero nito de iteraciones a una hiptesis (w) que clasica perfectamente los ejemplos siempre que stos sean linealmente separables Gradiente/Delta convergen asintticamente a una hiptesis de mnimo error (local) aunque los ejemplos no sean linealmente separables (Demostraciones en Hertz et al., 1991)
c 2002 DIT-ETSIT-UPM
transp. 11
Redes multicapa
Perceptron y otras funciones de activacin con una sola capa: limitacin por la condicin de separabilidad lineal Se pueden conseguir supercies no lineales con una red de varias capas? Para funciones lgicas, s (ejemplo tpico: ORX) Pero no con el algoritmo del gradiente ni la regla delta: la red seguira siendo lineal Con funciones de activacin no lineales? (como el Perceptron) Nuestra opinin personal es que la extensin es estril (Minsky y Papert, 1969)
c 2002 DIT-ETSIT-UPM
transp. 12
Problema del entrenamiento: asignacin de mrito (credit assignment) Mrito (o responsabilidad) de un peso (wi j : E medida de su contribucin al error global ( w ) Dicultad con el Perceptron: la funcin de activacin no es diferenciable Se necesita una neurona con funcin de activacin no lineal, para conseguir supercies no lineales
ij
c 2002 DIT-ETSIT-UPM
w x ij ij
("net ") j
c 2002 DIT-ETSIT-UPM
wi j
K j xi j , con j
rj
sj sj 1
sj
transp. 14
rj
sj
rj
sj
rj
sj sj 1
Ee y j
E wi j
E y j
xi j
s j y j
ds dy
sy
E wi j
transp. 13
s(y j) =
1 -y 1+e j
sy
sj
wi j : peso de la conexin de la neurona i a la j j : factor de error de la neurona j e: ndice sobre los ejemplos l : ndice sobre las neuronas de salida h r: ndices sobre neuronas ocultas
Para varias neuronas de salida el error global de una hiptesis w es:
c 2002 DIT-ETSIT-UPM
r: capa c+1
c 2002 DIT-ETSIT-UPM
sh 1
sh
sh 1
sh l whl l
whr r
Neuronas de salida: l
sl
sl
rl
Ee y j
sl
Ee wi j
Regla delta: Ee w
rle
Gradiente: E w
1 2 e l 1 2 l
rle
sle sle
2 2
transp. 15
K j xi j , con
transp. 16
c 2002 DIT-ETSIT-UPM
transp. 17
c 2002 DIT-ETSIT-UPM
transp. 18
c 2002 DIT-ETSIT-UPM
transp. 19
Redes multicapa: ejemplo Una capa oculta: supercies convexas Dos capas ocultas: supercies arbitrarias Ejemplo: reconocimiento de 10 sonidos vocales en el contexto h_d (Huang y Lippmann, 1988)
4000
head
heed
hid
2000 F2 (Hz)
1000
F 2
hud hod
whod
500 0 500
hawed
1000 F1 (Hz) 1400
hood
c 2002 DIT-ETSIT-UPM
transp. 20
Ontognesis Modelos neurocibernticos Filognesis Modelos evolucionistas Al n y al cabo, no hay tantas tcnicas informticas que hayan demostrado su valor a lo largo de 3.000 millones de aos de pruebas de campo (Forsyth, 1986)
reproduccin mutaciones
c 2002 DIT-ETSIT-UPM
c 2002 DIT-ETSIT-UPM
transp. 21
La evolucin como modelo Primeras ideas: Generacin de mutaciones al azar sobre el cdigo binario de programas (Frieldberg, 1958) Actualmente, nfasis en otros mecanismos genticos, p. ej., trueque de genes (crossover) Computacin evolucionista: Algoritmos genticos: individuos = cadenas de bits Programacin gentica: individuos = rboles sintcticos de los programas
transp. 22
Operadores genticos:
Mutacin (cambio de un bit con probabilidad pequea) Seleccin de las parejas reproductoras (probabilidad proporcional al valor de la funcin)
Nueva generacion: los hijos sustituyen a los individuos menos adaptados Convergencia: cuando hay muchos valores iguales La mutacin sirve para resolver el problema de los mximos locales
c 2002 DIT-ETSIT-UPM
xn en binario
xn
transp. 23