Tesi 2002

Tesis doctoral
MODELOS PREDICTIVOS BASADOS EN REDES NEURONALES RECURRENTES DE TIEMPO DISCRETO
Juan Antonio Prez Ortiz e Julio de 2002
Memoria presentada para optar al grado de doctor Dirigida por Mikel L. Forcada y Jorge Calera Rubio
Universidad de Alicante Departamento de Lenguajes y Sistemas Informticos a
Tesis doctoral
MODELOS PREDICTIVOS BASADOS EN REDES NEURONALES RECURRENTES DE TIEMPO DISCRETO
Juan Antonio Prez Ortiz e

Julio de 2002
Departamento de Lenguajes y Sistemas Informticos a Universidad de Alicante
MODELOS PREDICTIVOS BASADOS EN REDES NEURONALES RECURRENTES DE TIEMPO DISCRETO Juan Antonio Prez Ortiz e
Resumen Este trabajo estudia la aplicacin de distintos modelos de redes neuroo nales recurrentes de tiempo discreto a diversas tareas de carcter predictivo. a Las redes neuronales recurrentes son redes neuronales que presentan uno o ms ciclos en el grafo denido por las interconexiones de sus unidades de a procesamiento. La existencia de estos ciclos les permite trabajar de forma innata con secuencias temporales. Las redes recurrentes son sistemas dinmicos no lineales capaces de descubrir regularidades temporales en las a secuencias procesadas y pueden aplicarse, por lo tanto, a multitud de tareas de procesamiento de este tipo de secuencias. Esta tesis se centra en la aplicacin de las redes neuronales recurrentes a la prediccin del siguiente o o elemento de secuencias de naturaleza simblica o numrica. o e No obstante, la prediccin en s no es el objetivo ultimo: en esta tesis o la capacidad predictiva de las redes recurrentes se aplica a la compresin de o seales de voz o de secuencias de texto, a la inferencia de lenguajes regulares n o sensibles al contexto, y a la desambiguacin de las palabras homgrafas o o de una oracin. o Los modelos concretos de redes utilizados son, principalmente, la red recurrente simple, la red parcialmente recurrente y el modelo neuronal de memoria a corto y largo plazo; este ultimo permite superar el llamado pro blema del gradiente evanescente que aparece cuando los intervalos de tiempo m nimos entre eventos interdependientes son relativamente largos. Para determinar valores correctos de los parmetros libres de las redes se usan dos a algoritmos, el clsico algoritmo del descenso por el gradiente y una forma a del ltro de Kalman extendido. Palabras clave: redes neuronales recurrentes de tiempo discreto, modelos predictivos en l nea y fuera de l nea, aprendizaje de secuencias simblicas, o prediccin de seales de voz, etiquetado de categor lxicas. o n as e
PREFACIO
Las redes neuronales recurrentes son uno de los modelos posibles para tratar secuencias temporales. Su principal ventaja estriba en la posibilidad de almacenar una representacin de la historia reciente de la secuencia, lo que o permite, a diferencia de lo que ocurre con las redes neuronales no recurrentes, que la salida ante un determinado vector de entrada pueda variar en funcin o de la conguracin interna actual de la red. o Como se ver a lo largo de esta tesis, las redes recurrentes han sido muy a utilizadas en multitud de tareas relacionadas con el procesamiento de secuencias temporales. Dentro de estas tareas, la prediccin de secuencias, o en la que se estima el valor futuro de uno o ms elementos de la secuencia a a partir de la historia observada, tiene importantes aplicaciones en campos tales como la inferencia de lenguajes o la compresin de seales. Esta tesis o n se centra en este aspecto del procesamiento de secuencias discretas con redes recurrentes de tiempo discreto y estudia tareas que van desde la prediccin o en l nea de secuencias simblicas o de voz hasta la desambiguacin de las pao o labras homgrafas de una oracin a partir de la prediccin de sus categor o o o as lxicas, pasando por la inferencia de lenguajes no regulares. e Este trabajo demuestra algunas limitaciones de los modelos neuronales recurrentes tradicionales y cmo algunas de ellas pueden ser superadas o mediante modelos o algoritmos de entrenamiento ms elaborados. a La tesis ha sido posible gracias a las ideas y aportaciones continuas durante ms de tres aos de los Drs. Mikel L. Forcada y Jorge Calera Rubio a n del Departamento de Lenguajes y Sistemas Informticos de la Universidad a de Alicante. No obstante, la parte de la tesis relacionada con el modelo denominado memoria a corto y largo plazo es fruto de mi estancia de dos meses en 2000 en el Istituto Dalle Molle di Studi sullInteligenza Articiale (IDSIA) de Lugano (Suiza) bajo la supervisin del Dr. Jrgen Schmidhuber. o u Estructura de la tesis Se ofrece a continuacin un pequeo resumen de lo que se discutir en o n a cada uno de los cap tulos. Los primeros tienen carcter introductorio: a i
ii
PREFACIO
Cap tulo 1. Este cap tulo presenta los problemas que se estudian en esta tesis. Cap tulo 2. Se introduce el modelo de red neuronal recurrente de tiempo discreto y las principales tareas a las que se ha aplicado dentro del campo del procesamiento de secuencias. Cap tulo 3. Un repaso a los modelos neuronales que se utilizan a lo largo de la tesis, tanto los que se pueden considerar clsicos, como algunos a ms recientes (en concreto, dentro de este ultimo grupo, la red neuroa nal recurrente en cascada y la red basada en las memorias a corto y largo plazo). Cap tulo 4. En este cap tulo se introducen los principales algoritmos de entrenamiento supervisado para redes recurrentes, especialmente el descenso por el gradiente y el ltro de Kalman extendido desacoplado. Con todo, las redes neuronales recurrentes presentan algunos problemas fundamentales que son analizados tambin. e Cap tulo 5. Una vez introducidos los problemas estudiados en la tesis, as como los aspectos fundamentales de las redes neuronales recurrentes, se presentan los enfoques con los que previamente han sido abordados estos problemas, haciendo especial nfasis en las soluciones de carcter e a neuronal. Los cap tulos anteriores son bsicamente un repaso al estado de la cuesa tin, adems de presentar una formalizacin de los conceptos introducidos. o a o Los cap tulos que se describen a continuacin constituyen la aportacin orio o ginal de esta tesis: Cap tulo 6. El objetivo es estudiar el uso de las redes recurrentes para predecir el siguiente s mbolo de una secuencia de texto. Se hace nfasis en e la prediccin en l o nea, un problema mucho ms dif que la inferencia a cil gramatical con redes neuronales clsica. El modelo de probabilidad a desarrollado por la red se utiliza en un compresor aritmtico, de fore ma que la razn de compresin se usa como medida de la calidad del o o predictor. A modo de estudio preliminar, se analiza tambin la pree diccin sobre secuencias derivadas de automatas nitos deterministas o o sobre secuencias caticas. o Cap tulo 7. El modelo de memorias a corto y largo plazo (LSTM) entrenado mediante el descenso por el gradiente es capaz de resolver problemas muy dif ciles de resolver con las redes tradicionales. Aqu se aplica por primera vez a este modelo un algoritmo de entrenamiento basado en el ltro de Kalman extendido y se observa cmo los resultados mejoran o
PREFACIO
iii
ostensiblemente, en cuanto a velocidad y robustez, los del algoritmo original en un par de tareas de inferencia de lenguajes. Cap tulo 8. En este cap tulo se explora el uso de las redes recurrentes para la desambiguacin lxica de corpus textuales, basndose en la predico e a cin de la categor lxica de la palabra siguiente a las ya vistas de o a e una oracin. El enfoque presentado aqu no necesita ningn texto o u desambiguado manualmente, lo que lo convierte probablemente en el primer mtodo neuronal que posee esta cualidad. Los experimentos e demuestran que el rendimiento de este enfoque es, como m nimo, similar al de un modelo oculto de Markov estndar entrenado mediante a el algoritmo de Baum y Welch. Cap tulo 9. Aqu se presenta un estudio comparativo del rendimiento de las redes cuando son entrenadas en l nea para predecir la prxima o muestra de una seal de voz digitalizada. La comparacin se realiza n o principalmente con modelos lineales y con una red recurrente en cascada que fue propuesta en su d para realizar esta tarea. Los resultados a conrman los de otros trabajos que encontraron serias limitaciones a la hora de trabajar con series numricas, especialmente al usar un algoe ritmo de aprendizaje basado en el descenso por el gradiente. El ltro de Kalman aplicado al entrenamiento de estas redes, por otro lado, supera parcialmente algunas de estas limitaciones. Cap tulo 10. Este cap tulo recoge las principales conclusiones que se deducen de todo lo anterior, adems de presentar una lista detallada de a posibles trabajos de investigacin para el futuro. o Apndice A Este apndice muestra cmo entrenar un modelo oculto de e e o Markov para realizar la desambiguacin de las categor morfolgicas o as o de una oracin, tcnica que se utiliza en los experimentos del cap o e tulo 8. Publicaciones Esta tesis doctoral recoge algunos trabajos publicados en congresos o revistas internacionales: Juan Antonio Prez-Ortiz, Jorge Calera-Rubio y Mikel L. Forcada, e 2001. Online text prediction with recurrent neural networks, Neural Processing Letters 14(2), 127140. Juan Antonio Prez-Ortiz y Mikel L. Forcada, 2001. Part-of-speech e tagging with recurrent neural networks, en Proceedings of the International Joint Conference on Neural Networks, IJCNN 2001, 15881592.
iv
PREFACIO
Juan Antonio Prez-Ortiz, Jorge Calera-Rubio y Mikel L. Forcada, e 2001. A comparison between recurrent neural architectures for realtime nonlinear prediction of speech signals, en D. J. Miller, T. Adali, J. Larsen, M. Van Hulle y S. Douglas, coordinadores, Neural Networks for Signal Processing XI, Proceedings of the 2001 IEEE Neural Networks for Signal Processing Workshop, NNSP 2001, 7381, IEEE Signal Processing Society. Juan Antonio Prez-Ortiz, Jorge Calera-Rubio y Mikel L. Forcada, e 2001. Online symbolic-sequence prediction with discrete-time recurrent neural networks, en G. Dorner, H. Bischof y K. Hornik, coordinadores, Proceedings of the International Conference on Articial Neural Networks, ICANN 2001, vol. 2130 de Lecture Notes in Computer Science, 719724, Springer-Verlag, Berl n. Felix A. Gers, Juan Antonio Prez-Ortiz, Douglas Eck y Jrgen Sche u midhuber, 2002. DEKFLSTM, en M. Verleysen, coordinador, Proceedings of the 10th European Symposium on Articial Neural Networks, ESANN 2002, 369376, D-side Publications. Tambin son consecuencia de las investigaciones desarrolladas para la e tesis los siguientes art culos todav inditos, aunque ya aceptados: a e Juan Antonio Prez-Ortiz, Felix A. Gers, Douglas Eck y Jrgen Sche u midhuber, 2002. Kalman lters improve LSTM network performance in hard problems, Neural Networks, aceptado con modicaciones. Felix A. Gers, Juan Antonio Prez-Ortiz, Douglas Eck y Jrgen Sche u midhuber, agosto de 2002. Learning context sensitive languages with LSTM trained with Kalman lters, en Proceedings of the International Conference on Articial Neural Networks, ICANN 2002, Lecture Notes in Computer Science, Springer-Verlag, Berl aceptado. n; Juan Antonio Prez-Ortiz, Jrgen Schmidhuber, Felix A. Gers y Doue u glas Eck, agosto de 2002. Improving long-term online prediction with decoupled extended Kalman lters, en Proceedings of the International Conference on Articial Neural Networks, ICANN 2002, Lecture Notes in Computer Science, Springer-Verlag, Berl aceptado. n; Agradecimientos Vaya ahora mi agradecimiento a todos los que han contribuido de forma directa al desarrollo de este trabajo: a mis directores de tesis, a los miembros del Departamento de Lenguajes y Sistemas Informticos de la Universidad de Alicante y a todos los que me acogieron en a el IDSIA de Lugano. Tambin han sido fundamentales para la elaboracin e o
PREFACIO
de este trabajo la beca de formacin de personal investigador FPI-99-14-268 o de la Generalitat Valenciana y los proyectos de la Comisin Interministerial o de Ciencia y Tecnolog TIC97-0941 y TIC2000-1599-C02-02. a Finalmente, un sincero gracias! a todos los que habis estado ah miene tras escrib esta tesis. a Juan Antonio Prez Ortiz e Alicante, 5 de julio de 2002
INDICE GENERAL
Prefacio 1 Los problemas 1.1 Secuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Los problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.1 Compresin de secuencias simblicas . . . . . . . . . . o o 1.2.2 Inferencia de lenguajes con dependencias a largo plazo 1.2.3 Desambiguacin categorial . . . . . . . . . . . . . . . . o 1.2.4 Prediccin de seales de voz . . . . . . . . . . . . . . . o n 2 Redes neuronales recurrentes 2.1 Redes neuronales . . . . . . . . . . 2.1.1 Modelo de neurona . . . . . 2.1.2 Poder computacional . . . . 2.1.3 Topolog neuronales . . . as 2.2 Redes recurrentes . . . . . . . . . . 2.3 Aplicacin de las redes recurrentes o cuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . al procesamiento de . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . se. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
i 1 2 3 3 4 5 6 9 9 10 12 14 14 15 19 19 19 22 23 23 25 27 29 30 35 35 36 38 38 39
3 Modelos 3.1 Modelos recurrentes tradicionales . . . . . . . 3.1.1 Redes de primer orden . . . . . . . . . 3.1.2 Redes de segundo orden . . . . . . . . 3.1.3 Adicin de una ventana temporal . . . o 3.1.4 Otras redes . . . . . . . . . . . . . . . 3.2 Modelo de memoria a corto y largo plazo . . 3.2.1 Clculo de la funcin de salida . . . . a o 3.2.2 Limitaciones de la red LSTM original 3.3 Red recurrente en cascada . . . . . . . . . . . 4 Entrenamiento 4.1 Algoritmos de entrenamiento supervisado . 4.1.1 Aprendizaje en l nea y fuera de l nea 4.2 Prediccin numrica con redes recurrentes . o e 4.3 Prediccin simblica con redes recurrentes . o o 4.3.1 Convergencia . . . . . . . . . . . . . vii . . . . .
viii
INDICE GENERAL
4.4 4.5
Mtodos basados en derivadas . . . . . . . . . . . . . . . . . e Aprendizaje recurrente en tiempo real . . . . . . . . . . . . 4.5.1 Ejemplo de clculo de las derivadas del error . . . . a 4.6 Retropropagacin en el tiempo . . . . . . . . . . . . . . . . o 4.6.1 Ejemplo de clculo de las derivadas del error . . . . a 4.7 Filtros de Kalman . . . . . . . . . . . . . . . . . . . . . . . 4.7.1 El ltro de Kalman . . . . . . . . . . . . . . . . . . . 4.7.2 El ltro de Kalman extendido . . . . . . . . . . . . . 4.8 Entrenamiento de una red neuronal con el ltro de Kalman 4.8.1 El ltro de Kalman extendido desacoplado . . . . . . 4.8.2 Control de la divergencia del ltro . . . . . . . . . . 4.8.3 Parmetros iniciales del algoritmo . . . . . . . . . . a 4.9 Coste computacional . . . . . . . . . . . . . . . . . . . . . . 4.10 Mtodos no basados en derivadas . . . . . . . . . . . . . . . e 4.11 Problemas en el aprendizaje . . . . . . . . . . . . . . . . . . 4.11.1 M nimos locales . . . . . . . . . . . . . . . . . . . . . 4.11.2 El gradiente evanescente . . . . . . . . . . . . . . . . 4.12 Justicacin de la red LSTM . . . . . . . . . . . . . . . . . o 4.12.1 Clculo del gradiente . . . . . . . . . . . . . . . . . . a 5 Las soluciones previas 5.1 Compresin de secuencias simblicas . . . . . . . . . . o o 5.1.1 Entrop . . . . . . . . . . . . . . . . . . . . . . a 5.1.2 Compresin de Human . . . . . . . . . . . . . o 5.1.3 Compresin aritmtica . . . . . . . . . . . . . . o e 5.1.4 Modelos de probabilidad de n-gramas . . . . . 5.1.5 Programas de compresin . . . . . . . . . . . . o 5.1.6 Diferencias con la inferencia gramatical clsica a 5.1.7 Trabajos neuronales . . . . . . . . . . . . . . . 5.2 Inferencia de lenguajes con dependencias a largo plazo 5.3 Desambiguacin categorial . . . . . . . . . . . . . . . . o 5.3.1 Trabajos neuronales . . . . . . . . . . . . . . . 5.4 Prediccin de seales de voz . . . . . . . . . . . . . . . o n 5.4.1 Trabajos neuronales . . . . . . . . . . . . . . . 6 Compresin de secuencias simblicas o o 6.1 Mtodo . . . . . . . . . . . . . . . . e 6.1.1 Secuencias de estados nitos 6.1.2 Secuencias caticas . . . . . . o 6.1.3 Textos . . . . . . . . . . . . . 6.2 Parmetros . . . . . . . . . . . . . . a 6.3 Resultados . . . . . . . . . . . . . . . 6.3.1 Secuencias de estados nitos 6.3.2 Secuencias caticas . . . . . . o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
41 42 43 44 46 47 48 50 52 53 55 55 56 58 58 59 59 61 63 67 67 67 69 70 73 74 75 76 77 78 79 81 81 83 83 84 85 88 88 89 89 90
INDICE GENERAL
ix
6.4
6.3.3 Textos en lenguaje humano . . . . . . . . . . . . . . . Discusin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o con dependencias a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . largo plazo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
92 93 97 97 100 102 107
7 Inferencia de lenguajes 7.1 Mtodo . . . . . . . e 7.2 Parmetros . . . . . a 7.3 Resultados . . . . . . 7.4 Discusin . . . . . . o
8 Desambiguacin categorial o 8.1 Mtodo . . . . . . . . . . . . . e 8.1.1 Fases de entrenamiento 8.1.2 Modelos alternativos . . 8.2 Parmetros . . . . . . . . . . . a 8.3 Resultados . . . . . . . . . . . . 8.4 Discusin . . . . . . . . . . . . o 9 Prediccin de se ales de voz o n 9.1 Mtodo . . . . . . . . . . . . e 9.1.1 Predictores no lineales 9.1.2 Predictores lineales . . 9.2 Parmetros . . . . . . . . . . a 9.3 Resultados . . . . . . . . . . . 9.4 Discusin . . . . . . . . . . . o . . . . . .
113 . 113 . 114 . 118 . 118 . 120 . 123 . . . . . . 125 125 126 127 127 128 132
10 Conclusiones y perspectiva 135 10.1 Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 10.2 Contribuciones de esta tesis . . . . . . . . . . . . . . . . . . . 137 10.3 Sugerencias para prximos trabajos . . . . . . . . . . . . . . . 138 o A Modelos de Markov para el etiquetado categorial A.1 Aplicacin al etiquetado categorial . . . . . . . . . o A.1.1 Simplicaciones . . . . . . . . . . . . . . . . A.1.2 Probabilidades hacia adelante . . . . . . . . A.1.3 Probabilidades hacia atrs . . . . . . . . . . a A.1.4 Otras probabilidades . . . . . . . . . . . . . A.1.5 Nuevos parmetros . . . . . . . . . . . . . . a A.1.6 Segmentacin . . . . . . . . . . . . . . . . . o A.1.7 Inicializacin . . . . . . . . . . . . . . . . . o Indice de s mbolos importantes Indice de abreviaturas Bibliograf a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 . 142 . 142 . 142 . 143 . 143 . 145 . 146 . 148 149 151 153
1. LOS PROBLEMAS
Esta tesis aborda diversos aspectos relativos al uso de redes neuronales recurrentes de tiempo discreto en tareas de prediccin de secuencias. o En este cap tulo se presenta los problemas estudiados y los motivos por lo que es importante abordarlos.
Las redes neuronales recurrentes (Kolen y Kremer 2001) (Haykin 1999, cap. 15) (Hertz et al. 1991, cap. 7) son, en principio, un modelo computacional ms potente que las clsicas redes neuronales hacia adelante. Esta a a mayor potencia proviene del hecho de que las redes recurrentes son capaces de procesar secuencias temporales gracias a la posibilidad de recordar parcialmente la historia relevante de la secuencia por medio de una representacin en forma de estado. Esta memoria no existe de manera natural o en las redes no recurrentes, utilizadas principalmente para el procesamiento de datos estticos. a A simple vista el rasgo que diferencia las redes neuronales recurrentes de las que no lo son es simple: la existencia de, como m nimo, una conexin o c clica (recurrente) entre las neuronas que las conguran. Esta diferencia tiene, sin embargo, profundas implicaciones en la capacidad de computacin o del modelo y en los algoritmos de entrenamiento necesarios para conseguirla. A la hora de clasicar las redes neuronales recurrentes se suele considerar la forma en la que el tiempo transcurre durante la actividad de la red. En este sentido podemos distinguir entre redes neuronales de tiempo discreto y redes neuronales de tiempo continuo. En las redes neuronales de tiempo discreto los clculos ocurren a saltos, como si un reloj marcara el ritmo de a procesamiento y se asume que en cada paso de tiempo la salida de cada neurona se obtiene instantneamente a partir de sus entradas. En el caso de a las redes neuronales de tiempo continuo (Pearlmutter 1995), las entradas y salidas de la red son funcin de una variable temporal continua y la dinmica o a de sus neuronas viene descrita por una ecuacin diferencial. o En este trabajo se estudia la capacidad de las redes recurrentes para predecir el siguiente componente de distintos tipos de secuencias. Ya que las secuencias son de tiempo discreto, las redes tambin tienen que serlo e 1
1. LOS PROBLEMAS
forzosamente. La prediccin del siguiente elemento con redes recurentes o es un tema clsico; vase, por ejemplo, los trabajos de Cleeremans et al. a e (1989) y Elman (1990). En este contexto es de esperar que la red desarrolle un modelo interno de la informacin relevante sobre una cierta cantidad o de la historia pasada de la secuencia que le permita realizar predicciones acertadas sobre el futuro. Dado que la tesis se centra en el procesamiento de secuencias temporales (Weigend y Gershenfeld 1994), es momento de introducir este concepto.
1.1. Secuencias
Informalmente, diremos que una secuencia es una serie de datos tomados de un conjunto S y que representaremos como s[n] = s[1], s[2], . . . , s[Ls ] donde Ls es la longitud de la secuencia. En una secuencia es posible que s[t] = s[t ] para t = t . Los valores entre corchetes son ndices (normalmente valores enteros) que reejan el orden de los distintos datos dentro de la secuencia; cuando este ndice se reere al tiempo se dice que la secuencia es de tipo temporal. Supongamos un sistema que trabaje con secuencias temporales. Podemos intentar caracterizar los tipos de operaciones que el sistema puede realizar sobre una secuencia (Forcada y Gori 2001). Para ello, consideremos que los elementos de la secuencia de entrada u[t] pertenecen a un conjunto U y que la secuencia tiene longitud Lu , es decir, las secuencias de entrada son de la forma u[t] U, t = 1, 2, . . . , Lu (1.1)
El sistema transforma la secuencia de entrada en una secuencia de salida, digamos y[t]. Consideremos que los elementos de la secuencia de salida pertenecen a un conjunto Y y que la longitud de la secuencia es Ly , esto es, y[t] Y, t = 1, 2, . . . , Ly (1.2)
Segn la forma de las variables anteriores, las operaciones que un sistema u que trabaje con secuencias puede desarrollar pueden dividirse en cuatro grupos: Traduccin o ltrado de secuencias. Este es el caso ms general de o a procesamiento de secuencias. Una secuencia u[1], u[2], . . . , u[Lu ] se transforma en otra secuencia y[1], y[2], . . . , y[Ly ]. Un caso interesante
1.2. LOS PROBLEMAS
dentro de este tipo de procesamiento es la traduccin s o ncrona en la que el sistema lee y genera una componente en cada paso, con lo que ambas secuencias crecen al mismo ritmo y Lu = Ly . Clasicacin de secuencias. Aqu Ly = 1. El sistema asigna a toda la o secuencia de entrada un unico valor o etiqueta del conjunto Y . Generacin de secuencias. Ahora Lu = 1. En este modo, el sistema o genera una secuencia de salida para una unica entrada. Prediccin de secuencias. En este caso U = Y . El sistema lee una o secuencia u[1], u[2], . . . , u[t] y produce como salida una posible continuacin de la secuencia de entrada u[t+1], u[t+2], . . . Normalmente se o predice un unico valor futuro, generalmente u[t+1], aunque en algunos casos el valor predicho es u[t + k] para un valor pequeo de k. n Los problemas abordados en esta tesis se pueden incluir dentro del ultimo grupo y se introducen a continuacin. o
1.2. Los problemas

Las tareas de prediccin que estudia esta tesis se pueden clasicar desde o varios ejes. Uno de ellos atiende al origen de los componentes de la secuencia; as en el caso de prediccin sobre seales numricas, tendremos U = R , o n e y en el caso de prediccin sobre series simblicas U = , donde es un alo o fabeto cualquiera. Por otro lado, puede considerarse la aplicacin concreta o de las tareas de prediccin estudiadas. Esta ultima clasicacin es la que o o determina en gran medida la estructura de los contenidos de la tesis y considera fundamentalmente cuatro aplicaciones: la compresin de secuencias o simblicas, la inferencia de lenguajes regulares y sensibles al contexto, la o desambiguacin de las partes de una oracin y la compresin de seales de o o o n voz digitalizadas. 1.2.1. Compresin de secuencias simblicas o o Las limitaciones impuestas por la capacidad de los dispositivos de almacenamiento y por el ancho de banda de los medios de transmisin obliga a o comprimir la informacin. Las tcnicas de compresin suelen ser distintas o e o segn la naturaleza simblica o numrica de las secuencias a comprimir. u o e Dentro del primer grupo, los sistemas compresores (Bell et al. 1990; Nelson y Gailly 1995) suelen basarse en un modelo de probabilidad que determine las probabilidades de aparicin de cada s o mbolo en un contexto secuencial determinado. De esta manera, la codicacin elegida para un o
1. LOS PROBLEMAS
s mbolo concreto est en funcin de las previsiones realizadas antes de su a o aparicin por el modelo y se puede usar codicaciones ms pequeas para o a n los s mbolos ms frecuentes, reduciendo as el nmero de bits necesarios para a u codicar la informacin. o Las redes recurrentes son candidatas para dicho modelo de probabilidad y en esta tesis se estudia la eciencia de este enfoque, principalmente con secuencias de texto en lenguaje natural, aunque tambin se consideran otros e tipos de secuencias simblicas para poder matizar los resultados obtenidos. o En esta tesis nos hemos planteado una restriccin importante: que el modelo o de probabilidad debe obtenerse al vuelo (lo que se llama habitualmente en l nea), de forma que la codicacin se realice sobre la marcha conforme se o procesa la secuencia de entrada.
1.2.2. Inferencia de lenguajes con dependencias a largo plazo La inferencia de lenguajes (o inferencia gramatical) consiste (Sakakibara 1997) en deducir un modelo (por ejemplo, un autmata nito o una o gramtica) de un lenguaje a partir de un conjunto de cadenas de ejemplo. a Las aplicaciones de la inferencia de lenguajes se extienden por multitud de campos como el reconocimiento sintctico de formas, la ling a ustica computacional o la bioinformtica. a Las redes neuronales recurrentes de tiempo discreto han sido ampliamente utilizadas en tareas de inferencia de lenguajes (Forcada 2002). Se pueden distinguir dos mtodos principales (Alquzar y Sanfeliu 1994) para abordar e e la tarea en funcin de si todas las cadenas de ejemplo pertenecen al lenguaje o a inferir (llamadas muestras positivas) o si se incluyen tambin cadenas que e no pertenecen a l (muestras negativas) convenientemente identicadas. En e el primer caso se entrena la red recurrente para que prediga en cada paso el siguiente s mbolo de cada una de las muestras positivas y se establece un umbral de prediccin para intentar que la red acepte las cadenas correctas o y rechace las incorrectas. El segundo caso se resuelve como una tarea de clasicacin en la que el entrenamiento se lleva a cabo para discernir si una o cadena pertenece o no al lenguaje tras haberla visto completamente. En este trabajo se considera la modalidad predictiva para la inferencia de lenguajes regulares y sensibles al contexto que presentan dependencias a largo plazo, que, como se ver, suelen ser dif a ciles de manejar con las redes recurrentes tradicionales (Hochreiter et al. 2001). Por ello, se considerar a tambin el modelo recurrente de memorias a corto y largo plazo (Hochreiter e y Schmidhuber 1997), ideado para superar este problema.
1.2. LOS PROBLEMAS
1.2.3. Desambiguacin categorial o La existencia de ambigedades en las lenguas es uno de los principales esu collos para conseguir sistemas de calidad para su procesamiento automtico. a La correspondiente desambiguacin es un paso intermedio muy importano te (Manning y Schtze 1999) en muchas aplicaciones como el reconocimiento u del habla o la traduccin automtica. o a En esta tesis se estudia el problema de la desambiguacin de aquellas o palabras a las que se puede asociar ms de una categor lxica (problema a a e conocido tambin como etiquetado de las partes de la oracin; en ingls PoS e o e 1 Un etiquetador morfosintctico es, en tagging por part-of-speech tagging). a este contexto, un programa que asigna a cada palabra de un texto una categor lxica de entre un conjunto previamente denido de categor a e as. Las categor lxicas (tambin llamadas partes de la oracin) pueden as e e o ser muy amplias (como verbo) o muy espec cas (como verbo transitivo, 3.a persona del singular del presente de indicativo), segn la aplicacin u o concreta que queramos darles. A la mayor parte de las palabras de cualquier oracin se les puede asignar fcilmente una unica etiqueta lxica mediante la o a e consulta de un diccionario o lxico.2 Sin embargo, como ya se ha dicho, hay e tambin muchas palabras que son ambiguas en el sentido de que se les puede e asignar ms de una categor lxica; por ejemplo, en espaol la palabra bajo a a e n puede ser un nombre un instrumento que produce sonidos graves, un adjetivo de poca altura, un adverbio equivalente a abajo o una preposicin debajo de. o La eleccin de la categor lxica correcta puede ser crucial, por ejemplo, o a e al traducir a otro idioma. La mayor de los desambiguadores categoriales a se basan en la suposicin de que la categor correcta puede determinarse a o a partir del contexto en el que aparece la palabra, o que, al menos, este contexto hace que una de ellas sea ms probable. Normalmente, la decisin se a o toma en funcin de las categor lxicas de las palabras vecinas, asumiendo o as e que la sintaxis es la mejor aliada a la hora de desambiguar una palabra. Esta idea puede fallar, no obstante, en frases como en la clsica frase en ingls a e Time ies like an arrow, donde, adems de la interpretacin principal a o
1 Aunque la ambigedad se puede presentar en distintos niveles, nos centraremos en el u nivel lxico. Dentro de este nivel hay dos causas principales de ambigedad: la polisemia y e u la homograf Una palabra es polismica cuando puede tener ms de una interpretacin, a. e a o todas con la misma categor lxica. Por otro lado, en las palabras homgrafas, que son a e o las que aqu nos interesan, las distintas interpretaciones pertenecen a categor lxicas as e diferentes. 2 Tambin puede usarse un adivinador, que deduce la categor lxica de la palabra a e a e partir de su forma supercial (por ejemplo, en espaol prcticamente todas las palabras n a acabadas en -abais son verbos).
1. LOS PROBLEMAS
(nombreverboconjuncin...), existen otras dos sintcticamente impecao a bles, aunque semnticamente improbables (verbonombreconjuncin... y a o 3 nombrenombreverbo...). Diremos que un texto est completamente etiquetado o etiquetado sin a ambigedades cuando cada aparicin de una palabra lleva asignada la etiu o queta lxica correcta. Por otro lado, un texto parcialmente etiquetado o e etiquetado ambiguamente es aquel en el que se asocia (mediante un lxico o e un adivinador) a cada palabra (independientemente del contexto en el que aparece) un conjunto de posibles categor lxicas; en este caso, a las palaas e bras ambiguas y desconocidas les corresponde ms de una etiqueta lxica.4 a e La obtencin de corpus signicativos de textos completamente etiquetao dos es un problema para todas las lenguas, especialmente para las minoritarias. Por ello, es muy recomendable disear desambiguadores categoriales n que no los necesiten. Las palabras que comparten el mismo conjunto de categor lxicas se as e dice que pertenecen a la misma clase de ambigedad (Cutting et al. 1992); u por ejemplo, las palabras canto y libro pertenecen a la misma clase de ambigedad {nombre, verbo}. u En esta tesis se plantea de forma original la desambiguacin categorial o como un problema de prediccin de clases de ambigedad con redes recuo u rrentes, como se ver ms adelante. Adems, el etiquetador morfosintctico a a a a propuesto necesita solo corpus de textos parcialmente etiquetados. 1.2.4. Prediccin de se ales de voz o n La prediccin de seales de voz en tiempo real (Barnwell et al. 1996) o n es una parte muy importante de sistemas de comunicacin actuales como o los sistemas de telefon mvil. Si suponemos que el valor de la seal en el a o n instante t puede predecirse a partir de su valor en instantes anteriores, se puede conseguir reducir la tasa de bits (siempre en funcin de la calidad del o predictor) codicando ecientemente la diferencia entre la seal real en el n instante t y la seal predicha, como se observa en la gura 1.1. n Aunque se ha comprobado que los predictores de voz no lineales mejoran la capacidad predictiva de los lineales (Townshend 1991), la mayor a
Las tres posibles interpretaciones ser El tiempo vuela como una echa, Cronoan metra a las moscas como una echa y A las moscas del tiempo les gusta una echa. 4 A las palabras desconocidas se les asigna normalmente el conjunto de las categor as abiertas, formada por aquellas categor a las que es posible aadir nuevas palabras del as n lenguaje: nombres comunes y propios, verbos, adjectivos y adverbios. Esta asignacin se o rena normalmente con la ayuda de un adivinador, como ya se ha explicado anteriormente.
3
1.2. LOS PROBLEMAS
Figura 1.1: Esquema de la codicacin predictiva sobre una seal u[t]. La seal o n n enviada por el canal (despus de ser codicada) es r[t]. e
de los estndares actuales (Barnwell et al. 1996) consideran modelos lineaa les adaptativos para implementarlos debido al equilibrio que proporcionan entre complejidad y rendimiento. Los modelos no lineales como las redes neuronales recurrentes deber an, en principio, superar a las tcnicas tradie cionales. Estudiaremos, por tanto, el rendimiento de ciertas redes a la hora de predecir la siguiente muestra de una secuencia de voz digitalizada.
' $ "9
" ' $ 7!
" ' $ #8 !
" (566432 $ #! 0(%& $ #! 5 5 )' 1 " )'

2. REDES NEURONALES RECURRENTES
Este cap tulo introduce los elementos principales que denen una neurona y la forma en que estas se combinan para constituir redes neuronales recurrentes. Adems de plantear un modelo formal de red neuronal a recurrente, que ser utilizado en posteriores cap a tulos, se describen brevemente las principales aplicaciones de este tipo de redes.
2.1. Redes neuronales

Una red neuronal puede verse como una mquina diseada originalmente a n para modelizar la forma en que el sistema nervioso de un ser vivo realiza una determinada tarea. Para lograr este objetivo, una red neuronal est formada a por un conjunto de unidades de procesamiento interconectadas llamadas neuronas. Cada neurona recibe como entrada un conjunto de seales discretas o n continuas, las pondera e integra, y transmite el resultado a las neuronas conectadas a ella. Cada conexin entre dos neuronas tiene una determinada o importancia asociada denominada peso sinptico o, simplemente, peso. En a los pesos se suele guardar la mayor parte del conocimiento que la red neuronal tiene sobre la tarea en cuestin. El proceso mediante el cual se ajustan o estos pesos para lograr un determinado objetivo se denomina aprendizaje o entrenamiento y el procedimiento concreto utilizado para ello se conoce como algoritmo de aprendizaje o algoritmo de entrenamiento. El ajuste de pesos es la principal forma de aprendizaje de las redes neuronales, aunque hay otras formas posibles.1 El art culo de McCulloch y Pitts (1943) se considera como el punto de arranque de la investigacin en redes neuronales; este trabajo introdujo tamo bin la teor de autmatas nitos como modelo computacional. McCulloch e a o y Pitts propusieron un modelo simplicado de la actividad nerviosa real en el que cada neurona de una red neuronal pod activarse o desactivarse en a funcin de lo que hicieran las neuronas conectadas a ella. Debido a que una o neurona solo pod estar activada o desactivada, la capacidad computacional a
1
Por ejemplo, la modicacin del nmero de neuronas o de la forma de conectarlas. o u
10
de la red completa se dene en trminos del conjunto de predicados lgicos e o que es capaz de computar. En este art culo ya aparecen redes neuronales recurrentes, a las que se denomina redes con ciclos. Unos aos despus, Kleene (1956) reformul algunos de estos resultados n e o e introdujo una notacin ms compacta y general. En su art o a culo se dene el concepto de expresin regular (all llamado evento regular ), tan imporo tante para la teor de lenguajes actual y sus aplicaciones. A partir de ah a , el campo de las redes neuronales y el de la teor de lenguajes comienzan a a tomar caminos separados. De hecho, el segundo acapar una creciente o atencin desde entonces hasta nuestros d mientras que el primero qued o as, o prcticamente olvidado a ra del trabajo de Minsky y Papert (1969). Sala z vo algunos trabajos aislados (Werbos 1974), las redes neuronales quedan relegadas a un segundo plano hasta la llegada de los ochenta. Las redes neuronales destacan por su estructura fcilmente paralelizaa ble y por su elevada capacidad de generalizacin (capacidad de producir o salidas correctas para entradas no vistas durante el entrenamiento). Otras propiedades interesantes son: No linealidad. Una red neuronal puede ser lineal o no lineal. Esta ultima caracter stica es muy importante, especialmente si se intenta modelizar sistemas generados mediante pautas no lineales. Adaptabilidad. Las redes neuronales son capaces de reajustar sus pesos para adaptarse a cambios en el entorno. Esto es especialmente util cuando el entorno que suministra los datos de entrada es no estacionario, es decir, algunas de sus propiedades var con el tiempo. an Tolerancia ante fallos. Una red neuronal es tolerante ante fallos en el sentido de que los posibles fallos operacionales en partes de la red solo afectan dbilmente al rendimiento de esta. Esta propiedad es debida e a la naturaleza distribuida de la informacin almacenada o procesada o en la red neuronal. 2.1.1. Modelo de neurona En el modelo ms habitual de neurona se identican cinco elementos a bsicos para la j-sima neurona de una red de tiempo discreto: a e Un conjunto de n seales de entrada, zi [t], i = 1, . . . , n, que suminisn tran a la neurona los datos del entorno; estos datos pueden ser externos a la red neuronal, pertenecientes a la salida de otras neuronas de la red, o bien correspondientes a la salida anterior de la propia neurona.
2.1. REDES NEURONALES
11
Un conjunto de sinapsis, caracterizada cada una por un peso propio Wji , i = 1, . . . , n. El peso Wji est asociado a la sinapsis que conecta a la unidad i-sima con la neurona j-sima. e e Un sesgo Wj cuya presencia aumenta la capacidad de procesamiento de la neurona y que eleva o reduce la entrada a la neurona, segn sea u su valor positivo o negativo. Un sumador o integrador que suma las seales de entrada, ponderadas n con sus respectivos pesos, y el sesgo. Una funcin de activacin g que suele limitar la amplitud de la salida o o de la neurona. Utilizando la notacin denida anteriormente podemos describir la opeo racin de una neurona mediante la ecuacin que determina su activacin en o o o el instante t + 1:
n
zj [t + 1] = g
i=1
Wji zi [t] + Wj
(2.1)
Es habitual, y as se har normalmente en este trabajo, considerar el ses a go como un peso ms de la red y no distinguirlo del resto de pesos sinpticos. a a Por tanto, mientras no se diga lo contrario, el trmino pesos se reere indise tintamente tanto a Wji como a Wj . La funcin de activacin es la que dene nalmente la salida de la neuo o rona. Las funciones de activacin ms utilizadas habitualmente son las o a siguientes: 1. Funcin identidad. Tiene la forma gI (x) = x y se utiliza cuando no o se desea acotar la salida de la neurona. 2. Funcin escaln. Adopta la forma o o gE (x) = 1 0 x0 x<0 (2.2)
y proporciona una salida con dos posibles valores. Es habitual encontrrsela con el nombre de funcin de Heaviside. a o 3. Funcin log o stica. Las funciones sigmoideas son un conjunto de funciones crecientes, montonas y acotadas que provocan una transformacin o o no lineal de su argumento. Una de las ms utilizadas es la funcin a o log stica denida por gL (x) = 1 1 + ex (2.3)
12
0.5
0 10
10
Figura 2.1: Representacin grca de la funcin log o a o stica, 1/(1 + ex ), para x entre 10 y +10.
La funcin log o stica est acotada entre 0 y 1. En la gura 2.1 se a muestra su representacin. o 4. Funcin tangente hiperblica. Otra funcin sigmoidea es la tangente o o o hiperblica: o gT (x) = tanh(x) (2.4)
En este caso, la funcin est acotada entre 1 y 1. La funcin log o a o stica y la tangente hiperblica se relacionan mediante la ecuacin: o o tanh(x) = ex ex ex + ex (2.5)
5. Funcin de base radial. Las ms habituales son funciones gaussianas o a no montonas del tipo o gB (x) = exp x2 2 2 (2.6)
donde dene la anchura. La funcin alcanza su valor mximo cuando o a la entrada es cero. 2.1.2. Poder computacional El poder computacional de una unica neurona es bastante limitado. Si consideramos una neurona con funcin de activacin escaln, este poder de o o o computacin puede estudiarse desde dos puntos de vista equivalentes: el de o la clasicacin y el de la representacin lgica. o o o
2.1. REDES NEURONALES
13
Clasicacin. Dado un conjunto de nP vectores de entrada, cada uno o de n componentes, clasicados como pertenecientes a una de entre dos clases, una neurona puede (mediante la asignacin correcta de valores o a sus pesos y a su sesgo) clasicarlos correctamente2 unicamente si se cumple la condicin de separabilidad lineal: los conjuntos de vectores o pertenecientes a cada clase deben ser separables por un hiperplano en el espacio nP -dimensional. Representacin lgica. La fraccin de funciones lgicas de n variao o o o bles que pueden representarse mediante una neurona con funcin de o activacin escaln decrece con n. Por ejemplo, para n = 1 las 4 poo o sibles funciones (identidad, negacin, siempre cierto y siempre falso) o son computables a travs de una neurona. Sin embargo, para n = 2 ya e existen dos funciones no computables (la o exclusiva y su negacin). o Para n variables, hay un total de 22 funciones lgicas. El nmero de o u n funciones dentro de esas 22 que son linealmente separables, es decir, que se pueden implementar con una neurona, NFL(n), no tiene una expresin exacta para n > 8, aunque la siguiente (Horne y Hush 1996) o permite acotar su valor: 42
n(n1)/2
n
2n +1 NFL(n) n!
(2.7)
que representa una fraccin cada vez menor del total de funciones o cuando se aumenta n. Las limitaciones anteriores se cumplen independientemente de la funcin o de activacin utilizada. Si se interconecta un conjunto de neuronas formando o una red de manera que la salida de algunas de ellas sea entrada de otras y se utilizan funciones de activacin no lineales, pueden superarse estas o limitaciones y las redes neuronales resultantes son capaces de emular la mquina universal de Turing (Hopcroft y Ullman 1979) y de computar, por a tanto, cualquier funcin computable (Siegelmann y Sontag 1991). La salida o de algunas de esas neuronas se convierte en la salida de la red neuronal y al resto de neuronas se las denomina unidades ocultas o de estado. El problema que surge entonces es cmo determinar el valor de los pesos o y sesgos de la red para poder computar una funcin determinada. Dado o que el espacio de exploracin puede ser enorme, se hace necesario el uso de o heur sticas a travs de algoritmos de entrenamiento, que no siempre logran e dar con una solucin adecuada. o
Si, por ejemplo, se utiliza una funcin de activacin escaln, esta clasicacin puede o o o o hacerse asignando el valor de salida 1 a los vectores de una clase y el valor 0 a los de la otra.
2
14
2.1.3. Topolog neuronales as La forma en que se interconectan las neuronas de una red neuronal dene un grafo dirigido. Si este grafo es ac clico, la red se denomina red neuronal hacia adelante (en ingls, feedforward network ) y en el caso de que posea e ciclos, se denomina red neuronal recurrente. En el primer grupo estn, entre a otros, los perceptrones, las mquinas de vectores soporte y las redes de a funciones de base radial3 (Haykin 1999). En el caso de las redes recurrentes, los ciclos existentes tienen un profundo impacto en la capacidad de aprendizaje de la red y las hacen especialmente indicadas para el procesamiento de secuencias temporales; son estas ultimas, las redes recurrentes, las que se usan en esta tesis.
2.2. Redes recurrentes

Adems de la ya discutida al comienzo del cap a tulo 1 (redes de tiempo continuo y redes de tiempo discreto), otras posibles clasicaciones dividen las redes neuronales recurrentes en redes de estado continuo o de estado discreto, segn la forma de las funciones de activacin empleadas. Segn la u o u forma en que se utilicen, cabe tambin hablar de redes recurrentes de relae jacin y de redes recurrentes para el procesamiento temporal. Las primeras o evolucionan durante una serie de iteraciones desde un estado inicial a un estado normalmente estacionario, momento en el que se consulta la salida de la red; la salida de las redes usadas para el procesamiento temporal, por otro lado, se consulta continuamente tras cada iteracin. o Entre los grupos anteriores, esta tesis se centra en las redes neuronales recurrentes de tiempo discreto con funciones de activacin continuas aplio cadas al procesamiento temporal de secuencias. Trabajaremos con sistemas dinmicos que poseen un estado que cambia conforme se procesa la secuena cia de entrada y que proporciona una secuencia de salida a partir de las activaciones en cada instante de tiempo de las neuronas de salida. Ms fora malmente, una red neuronal recurrente de tiempo discreto (RNR a partir de ahora) de las que se van a considerar en esta tesis puede verse (Carrasco et al. 2000; Forcada y Gori 2001) como una sxtupla N = (X, U, Y, g X , g Y , x0 ) e donde: X = [S0 , S1 ]nX es el espacio de estados de la RNR.4 S0 y S1 son los valores que denen el rango de salida de las funciones de activacin o
Aunque existen tambin algunos trabajos sobre redes recurrentes de funciones de base e radial (Cid-Sueiro et al. 1994). 4 Esta condicin puede relajarse para permitir que el intervalo de X sea abierto. La red o LSTM, que veremos en el siguiente cap tulo, es un ejemplo de RNR en la que ocurre esto.
3
2.3. APLICACION DE LAS REDES RECURRENTES AL PROCESAMIENTO DE SECUENCIAS
15
utilizadas en la funcin siguiente estado y nX es el nmero de unidades o u de estado. U = R nU es el espacio de los vectores de entrada y nU el nmero de u componentes de la entrada. Y = [T0 , T1 ]nY es el espacio de salida5 de la RNR. T0 y T1 denen el rango de salida de las funciones de activacin utilizadas en la funcin o o de salida y nY es el nmero de componentes de los vectores de salida. u g X : X U X es la funcin de siguiente estado, que computa un o nuevo estado x[t] a partir del estado anterior x[t 1] y la entrada actual u[t]. g Y es la funcin de salida, que habitualmente toma una de las dos o formas siguientes: 1. g Y : X U Y . La salida y[t] se obtiene a partir del estado anterior x[t 1] y la entrada actual u[t]; este tipo de redes se conocen como mquinas neuronales de estados de Mealy. a 2. g Y : X Y . La nueva salida y[t] se obtiene a partir del estado recien alcanzado x[t]; estas redes se conocen como mquinas a neuronales de estados de Moore. x0 es el estado inicial de la RNR, es decir, x[0]. En el cap tulo 3 se muestran algunas topolog neuronales de carcter as a recurrente; en el cap tulo 4 se describen los algoritmos de entrenamiento ms utilizados sobre RNR. a
2.3. Aplicacin de las redes recurrentes al procesamiento de o secuencias

A continuacin se enumeran, siguiendo a Forcada y Gori (2001), algunas o de las tareas relacionadas con el procesamiento de secuencias a las que se han aplicado las RNR. Los elementos de la siguiente lista no son excluyentes, es decir, alguna tarea podr englobarse en ms de una categor a a a. Prediccin de series temporales. Esta es una de las aplicaciones ms o a habituales de las RNR. A partir de la historia pasada de una o ms a variables, la red neuronal debe proporcionar una prediccin lo ms o a correcta posible de su valor futuro. La mayor parte de los estudios de
5
Si la funcin de salida no est acotada, el intervalo de Y puede ser abierto. o a
16
este tipo se centran en series econmicas (McCluskey 1993) o tomadas o de fenmenos naturales (Aussem et al. 1995), pero hay otras aplicacioo nes como la continuacin de melod inacabadas (Mozer 1994). Por o as otro lado, muchas de las tareas que se indican en los siguientes grupos y cualquiera de las abordadas en esta tesis pueden enfocarse como una tarea de prediccin. o Procesamiento del lenguaje humano. El anlisis sintctico de frases o a a el estudio de regularidades en el lenguaje son algunas de las tareas relacionadas con el lenguaje humano (escrito) a las que se han aplicado las RNR (Elman 1990; 1991). Ecualizacin de canales digitales. Los efectos del canal sobre la seal o n transmitida en comunicaciones digitales pueden hacer que esta sea irreconocible al llegar al receptor. Se hace necesario, por tanto, el uso de algn tipo de ltro inverso que deshaga estos efectos y proporcione u una seal similar a la original. Esta tarea de traduccin de seales se n o n conoce normalmente como ecualizacin y varios trabajos se han acero cado a ella con RNR (Kechriotis et al. 1994; Ortiz Fuentes y Forcada 1997; Cid-Sueiro et al. 1994). Codicacin del habla. Existe gran cantidad de tcnicas para comprimir o e una seal de voz de manera que pueda ser transmitida por un canal n con el menor nmero de bits por segundo posible (para una calidad u de recepcin determinada). Algunas de estas tcnicas se basan en o e la llamada codicacin predictiva; en ella lo que se env no es la o a seal, sino la diferencia entre su valor real y el valor predicho por n un determinado predictor. Si el predictor es bueno, esta diferencia ser pequea y se necesitarn pocos bits para codicarla. Las RNR a n a tambin han sido usadas como predictores para la codicacin del e o habla (Haykin y Li 1995). Reconocimiento del habla. El reconocimiento del habla puede considerarse como una tarea de traduccin de secuencias (por ejemplo, cuano do se asigna una secuencia de fonemas a una secuencia de vectores acsticos obtenidos mediante el procesamiento de una seal de voz) o u n como una tarea de clasicacin de secuencias (por ejemplo, al asignar o una palabra a una serie de vectores acsticos). Existen varias referenu cias que utilizan RNR para el reconocimiento del habla (Robinson y Fallside 1991). Inferencia gramatical. Dado un conjunto de cadenas pertenecientes a un cierto lenguaje, uno de los problemas ms estudiados es la inferencia a de un modelo (un autmata nito o una gramtica independiente del o a contexto, por ejemplo) que describa de manera correcta ese lenguaje.
2.3. APLICACION DE LAS REDES RECURRENTES AL PROCESAMIENTO DE SECUENCIAS
17
Este es posiblemente el campo en el que las RNR han proporcionado mejores resultados (Cleeremans et al. 1989; Castao et al. 1995; n Carrasco et al. 2000). Control de sistemas. Las RNR pueden ser tambin entrenadas (Puskoe rius y Feldkamp 1994) para controlar un sistema real de manera que su salida siga un determinado patrn temporal. o
3. MODELOS
En este cap tulo se describen algunos modelos de RNR, haciendo especial nfasis en aquellos que se van a utilizar en esta tesis. No pretende, e por tanto, ser una recopilacin exhaustiva de los distintos tipos de o RNR. Por su relativa novedad y escasa difusin hasta la fecha, se mueso tra con ms detalle el modelo de memorias a corto y largo plazo. a
3.1. Modelos recurrentes tradicionales

En este apartado se presentan algunos modelos recurrentes que podemos considerar clsicos (Carrasco et al. 2000), ya que han sido utilizados en a multitud de referencias desde prcticamente los inicios de las RNR. a 3.1.1. Redes de primer orden Una de las topolog neuronales ms utilizadas en este trabajo es la as a red recurrente de propagacin de errores o red parcialmente recurrente (Roo binson y Fallside 1991) de primer orden (RPR), cuya dinmica viene dada a por: yi [t] = gY (Yi [t])
nU
i = 1, . . . , nY
nX j=1 y,x Wi,j xj [t 1] + Wiy
(3.1) (3.2)
Yi [t] =
j=1
y,u Wi,j uj [t] +
xi [t] = gX (Xi [t])

nU
i = 1, . . . , nX
nX j=1 x,x Wi,j xj [t 1] + Wix
(3.3) (3.4)
Xi [t] =
j=1
x,u Wi,j uj [t] +
donde gY y gX son funciones de activacin equivalentes a las de la seccin 2.2, o o nX es el nmero de neuronas de estado, nU es el nmero de entradas a la u u red y nY es el nmero de neuronas de salida. Un diagrama de la RPR puede u observarse en la gura 3.1. A continuacin sigue una breve explicacin sobre la notacin utilizada o o o para los pesos y sesgos de la red: los super ndices indican el clculo en el que a 19
20
3. MODELOS
x[t]
y[t]
z 1
x[t 1]
u[t]
Figura 3.1: Esquema de la red parcialmente recurrente de primer orden (Robinson y Fallside 1991). El bloque etiquetado con z 1 representa un vector de clulas de e retardo temporal.
y[t]
x[t]
z 1
x[t 1]
u[t]
Figura 3.2: Esquema de la red recurrente simple de primer orden (Elman 1990).
y,u est implicado el peso: por ejemplo, Wi,j indica que ese peso contribuye a a determinar la salida y a partir de la entrada u. Por otra parte, Wix indica que este peso es un sesgo implicado en el clculo del estado x. Los sub a ndices muestran las unidades concretas que se ven afectadas (conectadas) y van paralelos a los super ndices.
Otro tipo de red es la red recurrente simple de primer orden (RRS) propuesta por Elman (1990), que puede observarse en la gura 3.2 y cuya
3.1. MODELOS RECURRENTES TRADICIONALES
21
y[t]
x[t]
z 1
x[t 1]
u[t]
Figura 3.3: Esquema de la red totalmente recurrente de primer orden (Williams y Zipser 1989).
dinmica viene determinada por las ecuaciones: a yi [t] = gY (Yi [t])

nX
i = 1, . . . , nY
(3.5) (3.6) (3.7) (3.8)
Yi [t] =
j=1
y,x Wi,j xj [t] + Wiy
xi [t] = gX (Xi [t])

nU
i = 1, . . . , nX
nX j=1 x,x Wi,j xj [t 1] + Wix
Xi [t] =
j=1
x,u Wi,j uj [t] +
La red totalmente recurrente (Williams y Zipser 1989) de primer orden (RTR) viene descrita por: yi [t] = xi [t] xi [t] = gX i = 1, . . . , nY
nU j=1 x,u Wi,j uj [t] nX
x,x Wi,j xj [t 1] + Wix
(3.9) (3.10)
+
j=1
normalmente con nX nY . Un esquema de la RTR se muestra en la gura 3.3. Segn lo discutido en la seccin 2.2, la RRS y la RTR son mquinas de u o a Moore neuronales y la RPR es una mquina de Mealy neuronal. El estado a de la red se dene como x[t].
22
3. MODELOS
3.1.2. Redes de segundo orden La red recurrente simple de segundo orden (RRS2), utilizada por Carrasco et al. (1996) y por Blair y Pollack (1997), viene dada por: yi [t] = gY
nX j=1
y,x Wi,j xj [t] + Wiy
(3.11)
xi [t] = gX
nX nU j=1 k=1
x,x,u Wi,j,k xj [t 1]uk [t] + Wix
(3.12)
Tambin puede obtenerse una versin de segundo orden (RPR2) de la e o RPR. Esta topolog ha sido utilizada, entre otros, por Omlin y Giles (1996) a y responde a las ecuaciones: yi [t] = gY
nX nU j=1 k=1
y,x,u Wi,j,k xj [t 1]uk [t] + Wiy
(3.13)
xi [t] = gX
nX nU j=1 k=1
(3.14)
La red totalmente recurrente de segundo orden (RTR2) propuesta por Giles et al. (1992) se dene a partir de: yi [t] = xi [t] xi [t] = gX
(3.15)
nX nU j=1 k=1
(3.16)
donde, como en la RTR, se suele hacer nX nY . Segn lo discutido en la seccin 2.2, la RRS2 y la RTR2 son mquinas u o a de Moore neuronales de segundo orden y la RPR2 es una mquina de Mealy a neuronal de segundo orden. El estado de la red se considera, de nuevo, almacenado en x[t].
3.1. MODELOS RECURRENTES TRADICIONALES
23
3.1.3. Adicin de una ventana temporal o Todos los modelos anteriores de RNR pueden ser ampliados con la incorporacin a sus entradas de una memoria expl o cita a corto plazo. De esta forma, la entrada a la red consistir en el valor actual u[t] concatenado con a los p 1 valores anteriores u[t 1], . . . , u[t p + 1]. A p se le conoce como orden de la memoria de entrada u orden de entrada. Una de las primeras utilizaciones de esta idea (con redes no recurrentes) fue el proyecto NetTalk (Sejnowski y Rosenberg 1987). Con esta ampliacin, la red recurrente tiene a su disposicin de forma o o expl cita la historia ms reciente y puede, en teor utilizar el estado para a a, almacenar informacin relativa a un pasado ms remoto. o a Al incorporar una ventana de entradas de orden p la ecuacin (3.4), por o ejemplo, se convierte ahora en:
nU p x,u Wi,j(k) uj [t k + 1] + nX j=1
Xi [t] =
j=1 k=1
x,x Wi,j xj [t 1] + Wix
(3.17)
x,u donde se ha utilizado Wi,j(k) para referirse al peso que une uj [t k + 1] con la neurona i del estado. Las ecuaciones de las otras redes recurrentes se modicar de manera similar. an
A efectos prcticos, es aconsejable no alterar las ecuaciones y considerar a que la entrada de la red tiene tamao n U = p nU , adems de controlar n a esa entrada realizando el desplazamiento de todos los componentes en cada instante de tiempo para descartar la informacin ms antigua e incorporar o a la nueva. Ya que en esta tesis se pretende estudiar la capacidad de las RNR para desarrollar per se una representacin interna de los contextos de las secueno cias procesadas, no se considerarn apenas modicaciones de este tipo, salvo a en el cap tulo 9. 3.1.4. Otras redes Las RNR de primer y segundo orden mostradas hasta ahora pueden considerarse de estado oculto; el estado de estas redes se almacena en x[t]. Existen otras redes, como la red NARX, que se pueden considerar de estado visible, ya que su estado es simplemente una combinacin de las entradas y o salidas anteriores.
24
3. MODELOS
Adems de incorporar a la red las p 1 entradas anteriores, las redes a NARX1 (Narendra y Parthasarathy 1990) aaden las q salidas anteriores de n la red. Una red NARX con orden de entrada p y orden de salida q viene denida por las ecuaciones: yi [t] = gY zi [t] = gZ
nZ y,z Wi,j zj [t] + Wiy
(3.18)
j=1
nU
p z,u Wi,j(k) uj [t k + 1] +
nY
z,y Wi,j(k) yj [t k] + Wiz
j=1 k=1
j=1 k=1
(3.19) Se ha usado zi para las neuronas intermedias y no xi para evitar confusiones, ya que, como se ha comentado, el estado de las NARX no est en a ellas, sino en la ventana de entradas y en la de salidas. Cuando el estado de la red NARX est formado unicamente por las a entradas anteriores de la red, es decir, cuando q = 0, se obtiene una red denominada tradicionalmente red neuronal de retardos temporales (Sejnowski y Rosenberg 1987) (TDNN, por el ingls time-delayed neural network ). e Por otro lado, si eliminamos el conjunto de neuronas intermedias (con activaciones zi [t]) de la red NARX para permitir as la conexin directa en o tre la entrada y la salida de la red, y usamos la identidad como funcin de o activacin para gY , obtenemos el modelo de ltro de respuesta de tiempo o innito al impulso (IIR, por el ingls innite-time impulse response), ame pliamente utilizado en teor de la seal (Oppenheim y Schafer 1989; Proakis a n y Manolakis 1998) y cuya ecuacin es: o
nU p y,u Wi,j(k) uj [t k + 1] + nY q y,y Wi,j(k) yj [t k] + Wiy
yi [t] =
j=1 k=1
(3.20)
j=1 k=1
Finalmente, si las consideraciones anteriores se aplican a una red TDNN (esto es, si se hace q = 0 en la ecuacin anterior), se obtiene las ecuaciones o de un ltro de respuesta de tiempo nito al impulso (FIR, por el ingls nitee time impulse response), tambin muy usado en teor la seal (Oppenheim e a n y Schafer 1989; Proakis y Manolakis 1998):
nU p y,u Wi,j(k) uj [t k + 1] + Wiy
yi [t] =
j=1 k=1
1
(3.21)
Aunque aparezca en una seccin aparte, la red NARX tambin puede considerarse o e como una red de primer orden.
3.2. MODELO DE MEMORIA A CORTO Y LARGO PLAZO
25
1.0 gZ (Z) PSfrag replacements x gM (x) z
Figura 3.4: Un bloque de memoria con una unica celda. La entrada de la celda se representa con Z, la activacin de la compuerta de entrada con , la activacin o o de la compuerta de salida con , la activacin del CEC con x y la activacin global o o de la celda con z.
3.2. Modelo de memoria a corto y largo plazo

Para comprender totalmente el modelo de memoria a corto y largo plazo (LSTM, por el ingls long short-term memory) es fundamental conocer el e problema del gradiente evanescente que las motiva y la manera con la que el modelo intenta superar este problema. Pero para ello es necesario discutir previamente ciertos aspectos relativos a los algoritmos de entrenamiento de RNR y al clculo del gradiente de la funcin de error. En el cap a o tulo siguiente se estudian estos aspectos y, entonces, se introducen los principios en los que se basa la red LSTM. En este apartado, por tanto, nos limitaremos a presentar la conguracin y las ecuaciones que denen el modelo. o El componente bsico del modelo LSTM (Hochreiter y Schmidhuber a 1997) es el bloque de memoria, que contiene una o ms celdas de memoa ria, una compuerta de entrada y una compuerta de salida. Las compuertas son unidades multiplicativas con activacin continua (normalmente dentro o del intervalo unidad) y son compartidas por todas las celdas que pertenecen a un mismo bloque de memoria. Cada celda contiene una unidad lineal con una conexin recurrente local llamada carrusel de error constante (CEC); o la activacin del CEC se conoce como el estado de la celda. o La gura 3.4 muestra uno de estos bloques de memoria con una unica celda; esta gura es util tambin para introducir la notacin relativa al e o modelo que se utilizar a lo largo de la tesis. La gura 3.5 muestra un bloque a de memoria con dos celdas, que comparten las compuertas del bloque.
26
3. MODELOS
1.0 gZ (Zi1 ) xi1 PSfrag replacements gZ (Zi2 ) xi2 i i 1.0 gM (xi2 ) zi2 gM (xi1 ) zi1
Figura 3.5: El bloque de memoria i-simo con dos celdas. e
Cada celda recibe como entrada una coleccin de valores (ponderados o mediante los pesos correspondientes) provenientes de la entrada de la red y de las salidas de todas las celdas del modelo en el instante anterior. La compuerta de entrada se encarga de permitir o impedir el acceso de estos valores al CEC del interior de la celda. La compuerta de salida realiza una accin similar sobre la salida de la celda, tolerando o reprimiendo la difusin o o del estado del CEC al resto de la red. Los bloques de memoria conguran una red LSTM como puede verse en la gura 3.6, donde no se indican los sesgos de las distintas neuronas del modelo. La existencia de las conexiones con pesos W y,u determina la naturaleza de la red segn lo discutido en 2.2. As si se permite la existencia de u , esta conexin, la red LSTM se puede considerar como una mquina neuronal o a de estados de Mealy; si no se permite, la red LSTM puede considerarse como una mquina neuronal de estados de Moore. El estado de la red LSTM est a a formado por las activaciones de las compuertas, el CEC y las celdas de los bloques de memoria.2 Basndonos en la notacin ya introducida, a continuacin se describe a o o brevemente la correspondiente a la red LSTM. Sean nU , nY , nM y nC el nmero de neuronas de entrada, salida, bloques de memoria y celdas por u bloque, respectivamente. La entrada en el instante t se denota con u[t] y
Ntese cmo los valores de algunos componentes del estado, en especial la activacin o o o de los CEC, no estn acotados. a
2
27
y[t]
W y,z
W y,u W ,z
W z,z PSfrag replacements
W ,z
W ,z x11 x12 x21 x22 W ,u
W z,z W z,u
W z,u
W ,u
u[t]
Figura 3.6: Una red LSTM con dos bloques de memoria de dos celdas cada uno. Solo se muestran algunas conexiones y no se muestran los sesgos.
la salida correspondiente con y[t]. La salida de la j-sima celda del bloque e i-simo se representa con zij [t]. e Como ya se vio antes, al representar los pesos, los super ndices indican el clculo en el que est involucrado el peso en cuestin: el , z en W ,z a a o indica que el peso se usa para calcular la activacin de una compuerta de o entrada () a partir de la de una celda (z); el en W indica que el sesgo se usa para calcular la activacin de una compuerta de salida. Los sub o ndices indican las unidades particulares afectadas por el peso y van paralelos a los super ndices. 3.2.1. Clculo de la funcin de salida a o La activacin de la compuerta de entrada del i-simo bloque de memoria o e i se calcula como:
nM nC
i [t] =
j=1 k=1
,z Wi,jk zjk [t
nU
1] +
j=1
,u Wi,j uj [t] + Wi
(3.22) (3.23)
i [t] = gC (i [t])
28
3. MODELOS
donde gC es la funcin de activacin de todas las compuertas de la red (la o o funcin log o stica, si no se dice lo contrario). La activacin de la compuerta de salida se calcula como sigue: o
nM nC
i [t] =
j=1 k=1
,z Wi,jk zjk [t 1] +
nU j=1
,u Wi,j uj [t] + Wi
(3.24) (3.25)
i [t] = gC (i [t])
El estado interno de la celda de memoria se calcula sumando la entrada modicada por la compuerta correspondiente con el estado en el instante anterior t 1: xij [t] = xij [t 1] + i [t] gZ (Zij [t]) (3.26)
donde gZ es una funcin de activacin (normalmente sigmoidea y acotada) o o y:

nM nC
Zij [t] =
k=1 l=1
z,z Wij,kl zkl [t 1] +
nU k=1
z,u z Wij,k uk [t] + Wij
(3.27)
con xij [0] = 0 para todo ij. La salida de la celda se calcula ajustando el estado del CEC mediante una nueva funcin de activacin gM y multiplicando o o el valor resultante por la activacin de la compuerta de salida: o zij [t] = i [t] gM (xij [t]) (3.28)
Finalmente, si permitimos la conexin directa entre la entrada y las neuronas o de salida, la salida global de la red se calcula mediante:
nM nC
Yi [t] =
j=1 k=1
y,z Wi,jk zjk [t]
nU
+
j=1
y,u Wi,j uj [t] + Wiy
(3.29) (3.30)
yi [t] = gY (Yi [t]) donde gY es, otra vez, una funcin de activacin adecuada. o o
Los pesos que inciden en las compuertas de entrada y salida se suelen iniciar de forma que i [0] y i [0] estn cerca de 0; de esta manera los bloques e de memoria estn desactivados inicialmente y el entrenamiento se centra en a las conexiones directas entre la entrada y las neuronas de salida. As el , protagonismo de los bloques de memoria va aumentando paulatinamente conforme el algoritmo de aprendizaje determina su rol. Finalmente, el nmero de pesos a ajustar en una red LSTM es (nM nC + u nU + 1)(nY + nM nC + 2nM ).
29
gZ (Z) PSfrag replacements x
gM (x) z
Figura 3.7: Un bloque de memoria con una compuerta de olvido con activacin . o
3.2.2. Limitaciones de la red LSTM original El modelo inicial de la red LSTM (Hochreiter y Schmidhuber 1997) ha sido aumentado desde su concepcin original para superar algunos problemas o detectados. A continuacin, se muestran dos de las principales modicacioo nes.
Reticencia a olvidar. Cuando la red LSTM presentada hasta ahora se aplica a tareas de procesamiento de secuencias de longitud arbitrariamente larga de forma continua, el modelo se vuelve inestable debido a que bajo determinadas circunstancias el estado de los CEC crece indenidamente (Gers et al. 2000). Para paliar este problema, se incorpora una tercera compuerta a los bloques de memoria: la compuerta de olvido. La compuerta de olvido (Gers et al. 2000) puede rebajar e incluso anular el estado interno de la celda, esto es, la activacin del CEC, cuando sus o contenidos caducan. Estas compuertas permiten que la red LSTM pueda procesar establemente secuencias de longitud arbitrariamente larga. La gura 3.7 muestra la nueva imagen de los bloques de memoria con la adicin de la compuerta de olvido. Como ocurr con las compuertas de o a entrada y de salida, la compuerta de olvido es compartida por todas las celdas del bloque.
30
3. MODELOS
La activacin de las compuertas de olvido i se obtiene calculando: o

nM nC
i [t] =
j=1 k=1
,z Wi,jk zjk [t 1] +
nU j=1
,u Wi,j uj [t] + Wi
(3.31) (3.32)
i [t] = gC (i [t])
Al considerar las compuertas de olvido, la ecuacin (3.26) cambia su o forma. El estado interno de la celda de memoria se calcula ahora sumando la entrada modicada por la compuerta correspondiente y el estado en el instante anterior t 1 multiplicado por la correspondiente compuerta de olvido: xij [t] = i [t] xij [t 1] + i [t] gZ (Zij [t]) (3.33)
Los pesos de las compuertas de olvido se inicializan normalmente de manera que i [0] est cerca de 1; con esta inicializacin, las celdas no olvidan e o nada hasta que aprendan cmo olvidar. o Aislamiento del estado. Al modelo base anterior se le ha aadido recienn temente (Gers y Schmidhuber 2001) una serie de conexiones de mirilla, que permiten la conexin directa entre el CEC y las compuertas que lo controo lan. Aunque la misin de las compuertas es controlar de un modo u otro el o estado de los CEC, el modelo original no permit que las compuertas pua dieran acceder directamente a dicho estado interno; con esta ampliacin del o modelo, cada compuerta dispone de una mirilla desde la que poder observar el interior del bloque de memoria. Estas nuevas conexiones son necesarias, como veremos, para poder aprender algunas tareas. La gura 3.8 muestra el bloque de memoria de la gura 3.7 con el aadido n de las conexiones de mirilla. Cada conexin de mirilla tiene un peso asociado o que deber ser ajustado por el algoritmo de entrenamiento correspondiente. a
3.3. Red recurrente en cascada

El ultimo de los modelos que veremos en esta seccin es la red neuronal o recurrente en cascada (RNRC), propuesta por Haykin y Li (1995) para realizar la prediccin de la siguiente muestra de una seal de voz. Dado que la o n RNRC se ha utilizado unicamente en este tipo de tareas de procesamiento de seales, describiremos el modelo en este contexto, de manera que la san lida de la red ser un unico valor y la entrada ser la concatenacin de las a a o muestras recientes de la seal, esto es, una ventana temporal de entradas. n Grosso modo, la RNRC puede considerarse como una serie de nM redes en cascada con pesos compartidos. Todas las redes son RPR, excepto la
3.3. RED RECURRENTE EN CASCADA
31
gZ (Z) PSfrag replacements
gM (x) z x
Figura 3.8: Un bloque de memoria con conexiones de mirilla, que conectan el estado del CEC con cada una de las compuertas.
u[t] z 1 z 1 z 1
u[t] PSfrag replacements RTRnM RPR2 RPR1
z 1 z 1
z 1
z 1
Figura 3.9: Esquema de la red recurrente en cascada (Haykin y Li 1995).
nM -sima, que es una RTR con el mismo nmero de pesos (vase el apartae u e do 3.1.1). Un esquema de la RNRC se muestra en la gura 3.9. Teniendo en cuenta que cada mdulo de la red puede verse como una o RPR, que los pesos son idnticos para los distintos mdulos y las ecuacioe o nes (3.1) a (3.4), la salida del mdulo m-simo en el instante t viene denida o e
32
3. MODELOS
por:
nX
y (m) [t] = gY
i=1
xi
(m)
[t 1] Wiy,x + v (m) W y,v +
nU i=1
ui
(m)
[t] Wiy,u + W y (3.34)
donde el estado del i-simo mdulo es: e o xi

(m)
[t] = gX
nX
xj
j=1
(m)
x,x [t 1] Wi,j + v (m) Wix,v +
nU j=1
uj
(m) x,u [t] Wi,j + Wix
(3.35) En lo anterior, gX y gY son funciones de activacin y v (m) es la salida o del mdulo anterior si m < nM o bien la salida pasada del propio mdulo si o o m = nM , es decir: v (m) [t] = y (m+1) [t] y (nM ) [t 1] m < nM m = nM (3.36)
El error de la red3 es una combinacin lineal de los errores e(m) de cada o uno de los mdulos:4 o 1 E[t] = 2
nM
m1 e(m) [t]
m=1
(3.37)
donde es un factor de olvido exponencial en el rango 0 < 1; el inverso de 1 es una especie de indicador de la memoria de la RNRC. La seal n de error de cada mdulo, utilizada en la ecuacin anterior es: o o e(m) [t] = d(m) [t] y (m) [t] (3.38)
Al aplicar la red a la prediccin de seales numricas de la forma s[t], se o n e hace nU = p, donde p es el orden del predictor. Las p muestras de entrada a cada mdulo son: o ui
(m)
[t] = s[t (m + i 1)]
(3.39)
y la salida deseada del mdulo m es: o d(m) [t] = s[t m + 1]

3
(3.40)
Como veremos en el siguiente cap tulo, el error es utilizado por los algoritmos de entrenamiento para ajustar los pesos de la red neuronal. 4 Ntese que el super o ndice de es en este caso un exponente.
3.3. RED RECURRENTE EN CASCADA
33
De esta manera la salida y (m) [t] se puede interpretar como una estimacin o del valor de la seal en el instante t m + 1 y, por tanto: n y (1) = s[t] La salida del primer mdulo es la prediccin global del sistema. o o (3.41)
4. ENTRENAMIENTO
Una vez seleccionado el modelo neuronal con el que resolver un determinado problema, surge la cuestin de cmo deteminar el valor de o o los pesos de la red que permiten resolverlo con xito. Los algoritmos e de entrenamiento se encargan de intentar encontrar esta conguracin o correcta. En este cap tulo se muestran algunos de los ms utilizados a con RNR, principalmente el descenso por el gradiente y el ltro de Kalman extendido desacoplado. Ambos se basan en el clculo de la a derivada de la funcin de error; dos son las formas ms habituales de o a obtener estas derivadas: el aprendizaje recurente en tiempo real y la retropropagacin a travs del tiempo. o e
4.1. Algoritmos de entrenamiento supervisado

Cuando se desea resolver una determinada tarea con la ayuda de una RNR, lo primero que se debe considerar es el tipo de red que se va a utilizar. La eleccin no es trivial: hay problemas que se resuelven aceptablemente o bien con un tipo de red, pero que son muy dif ciles (o imposibles) de resolver con otro. El nmero de entradas y de neuronas de salida vienen determinados por u la naturaleza de la tarea a resolver, por el tipo de secuencias a procesar o por la codicacin utilizada para sus elementos. Otros valores como el nmero de o u neuronas de estado o el orden de entrada o salida debern ser determinados a tras experimentar con distintas combinaciones o usar los l mites dados en la teor para algunos tipos de tarea.1 a A continuacin debe entrenarse la red para ajustar sus parmetros libres o a (los pesos habitualmente). Atendiendo a la forma en que se presentan los datos, los algoritmos de aprendizaje pueden dividirse en dos categor as:
Por ejemplo, un autmata nito determinista puede codicarse sobre una RRS con o nX = |Q||| neuronas de estado (Carrasco et al. 2000). Si estamos intentando que una RRS aprenda un lenguaje regular a partir de ejemplos, podemos hacer una estimacin de o |Q| y utilizarlo para calcular el valor de nX .
1
35
36
4. ENTRENAMIENTO
Entrenamiento supervisado. En este tipo de algoritmos la red neuronal cuenta con el apoyo externo de un maestro que informa de la correccin de la salida producida por la red de acuerdo con la salida o considerada correcta. Entrenamiento no supervisado. En este caso no existe tal maestro y la red neuronal debe extraer sin ayuda caracter sticas de los datos que se le suministra. Este trabajo se centra en el uso de RNR para la prediccin del siguiente o elemento de distintas secuencias; por ello, todos los algoritmos de aprendizaje estudiados sern supervisados. Durante el entrenamiento, la entrada a al algoritmo ser una representacin del elemento actual (o del actual y de a o algunos de los anteriores, si se utiliza una ventana temporal de entradas) y la salida deseada ser la representacin del siguiente elemento. a o Para entrenar la RNR de forma supervisada se necesita normalmente algn tipo de medida del error E[t] que describa la adecuacin de la saliu o da proporcionada por la red al valor deseado. Los parmetros se ajustan a intentando minimizar este error. La funcin de error ms habitual es la funcin de error cuadrtico, deo a o a nida para el instante t como: E[t] = 1 2
nY i=1
(di [t] yi [t])2
(4.1)
donde di [t] es la salida deseada u objetivo para la i-sima neurona de salida e en el instante t e yi [t] es la salida correspondiente de la red. Una posible forma de encontrar la solucin que minimice el valor del error o es la bsqueda exhaustiva sobre todas las posibles combinaciones de valores u de los pesos (o sobre un conjunto nito lo sucientemente signicativo de posibles valores). Evidentemente, esta forma de resolucin es intratable o en la mayor de los casos. Si el problema a aprender es sencillo, puede a que una estrategia basada en generar aleatoriamente conjuntos de valores para los pesos funcione (Schmidhuber y Hochreiter 1996). En general, sin embargo, se hace necesaria la utilizacin de algn tipo de heur o u stica que recorte el espacio de soluciones a explorar; esta es la labor de los algoritmos de entrenamiento. 4.1.1. Aprendizaje en l nea y fuera de l nea Supongamos una red neuronal que se est utilizando para el procesaa miento de secuencias. Si la red se aplica a la clasicacin de secuencias, por o
4.1. ALGORITMOS DE ENTRENAMIENTO SUPERVISADO
37
ejemplo, el conjunto de entrenamiento contendr una serie de secuencias a cuya clasicacin es conocida de antemano. El algoritmo de entrenamiento o debe conseguir que la red aprenda estas clasicaciones. Otras veces puede quererse que la red procese una unica secuencia en tiempo real. En algunos casos, la red neuronal se somete a una fase de entrenamiento, tras la cual sus pesos se congelan. Durante esta fase a la red se le presentan (normalmente ms de una vez) los datos del llamado conjunto de entrenaa miento. A continuacin, esta red neuronal se evala sobre un nuevo conjunto o u de datos para determinar la correccin del aprendizaje. o En otros casos, las fases de entrenamiento y evaluacin no estn tan o a claramente separadas y la salida de la red se usa simultneamente como a punto de referencia para cambiar los pesos y como producto utilizado en la resolucin de la tarea en cuestin. o o Cada tipo de procesamiento requiere una estrategia de aprendizaje distinta. Segn la forma de actualizar los parmetros libres (pesos y sesgos, u a normalmente) de la red neuronal, los algoritmos de entrenamiento supervisado pueden dividirse en las siguientes cuatro clases: Entrenamiento en l nea. Puede subdividirse en: En l nea por elementos o en l nea puro. Este tipo de algoritmo se utiliza cuando se pretende que la red trabaje en tiempo real, dando una salida lo ms correcta posible a los elementos de la sea cuencia suministrados en cada instante. Es habitual en este caso no distinguir las fases de entrenamiento y evaluacin. Se consio dera una funcin de error instantneo y los pesos se actualizan o a inmediatamente despus de considerar cada elemento. e Este tipo de entrenamiento se hace especialmente necesario al tratar con entornos no estacionarios en los que las estad sticas de las fuentes de datos cambian con el tiempo. En l nea por secuencias. En este caso, los pesos se siguen ajustando tras el procesamiento de cada elemento, pero, adems, se a permite reiniciar el estado de la red en momentos determinados del entrenamiento, normalmente al nal de cada secuencia. Entrenamiento fuera de l nea. Los algoritmos pertenecientes a este tipo de entrenamiento pueden a su vez subdividirse en: Fuera de l nea por secuencias. La actualizacin de los pesos reao lizada por el algoritmo se lleva a cabo tras la presentacin de o cada secuencia. La funcin de error considera todos los errores o
38
4. ENTRENAMIENTO
instantneos cometidos sobre cada uno de los elementos de la a secuencia. Fuera de l nea por pocas o por lotes. Los pesos se actualizan e una vez presentadas todas las secuencias, es decir, unicamente despus de ver todo el conjunto de entrenamiento, periodo que e se denomina poca. La funcin de error considera, por tanto, los e o errores cometidos sobre todo ese conjunto.
4.2. Prediccin numrica con redes recurrentes o e

La forma de utilizar una RNR para la prediccin del siguiente elemento o de una secuencia numrica es aparentemente sencilla: la muestra s[t] se e introduce en las entradas de la RNR (directamente con su valor o bien con un valor normalizado sobre un determinado rango) y se computa con ella la salida correspondiente y[t]. Esta salida se considera como una estimacin o del valor de la siguiente muestra de la seal, esto es, y[t] = s[t+1], con lo que n el valor de la salida deseada usado en la funcin de error es d[t] = s[t + 1]. o La funcin de activacin de las neuronas de salida debe ajustarse adeo o cuadamente al rango de posibles valores de la seal. n
4.3. Prediccin simblica con redes recurrentes o o

El caso de prediccin sobre secuencias simblicas es un poco ms elaboo o a rado. Consideremos que tenemos un alfabeto = {1 , . . . , || } a partir del cual se generan secuencias temporales de la forma s[1], . . . , s[t], . . . , s[L]. Para predecir el siguiente s mbolo de la secuencia con una RNR debemos determinar varias cosas: cmo se representa cada uno de los s o mbolos de y cmo se realiza el entrenamiento de la red para esta tarea. o La forma ms habitual de codicar los distintos s a mbolos i para su procesamiento por una RNR es la denominada codicacin exclusiva. En o ella, todos los s mbolos se codican mediante vectores unitarios de tamao n ||, de forma que la representacin del s o mbolo i en un espacio [0, 1]|| se obtiene a travs de la funcin de codicacin: e o o C : [0, 1]|| en la que el j-simo componente de la imagen es: e (C (i ))j = i,j i , j = 1, . . . , || (4.2)
y donde es la funcin delta de Kronecker, denida como: o i,j = 1 si i = j 0 en otro caso (4.3)
4.3. PREDICCION SIMBOLICA CON REDES RECURRENTES
39
Es decir, el s mbolo i se representa mediante un vector unitario en el que todos los componentes excepto el i-simo son cero. Cada s e mbolo se representa con el mismo vector durante todo el entrenamiento. Cuando se entrena una RNR para predecir las probabilidades del siguiente s mbolo de una secuencia, en el instante t se alimenta la red con la entrada: u[t] = C (s[t]) (4.4)
y la salida obtenida yi [t] se puede interpretar (como veremos a continuacin), despus de normalizarla para que todos sus componentes sumen uno, o e como la probabilidad de que el siguiente s mbolo de la secuencia sea i .2 Para reajustar los pesos de la red, se considera como salida deseada para el algoritmo de entrenamiento supervisado: d[t] = C (s[t + 1]) (4.5)
Cuando la codicacin exclusiva se aplica a las entradas, el nmero de o u entradas es nU = ||, y puede considerarse que cada s mbolo selecciona una determinada dinmica de la red. Al aplicar este tipo de codicacin tambin a o e a las salidas deseadas, el nmero de neuronas de salida es nY = ||. u 4.3.1. Convergencia A continuacin se demuestra que en el caso de que el entorno sea eso tacionario, el entrenamiento se haga fuera de l nea por pocas (es decir, se e consideren todos los datos disponibles antes de reestimar los parmetros) a y se utilice una funcin de error cuadrtico, el m o a nimo de esta se produce cuando la salida yi [t] de la red es la probabilidad condicionada de obtener i despus de haber visto todos los s e mbolos de la secuencia hasta el instante t (Kremer 1997). En efecto, la contribucin al error total debida al s o mbolo s[t] de una de las secuencias viene dada, si consideramos la funcin de error cuadrtico o a (4.1), por: 1 2
nY
(di [t] yi [t])2

i=1
(4.6)
donde la salida deseada d[t] es la codicacin exclusiva del s o mbolo s[t + 1]. El error asociado a la neurona de salida i-sima es, por tanto, (1 yi )2 si e 2 s[t + 1] = i e yi en caso contrario.
2
En las tareas de prediccin el alfabeto de entrada y el de salida suele ser el mismo. o
40
4. ENTRENAMIENTO
Supongamos que N secuencias de la muestra de entrenamiento tienen el prejo v = s[1], s[2], . . . , s[t] en comn y que de ellas n continan con el u u s mbolo i y N n con un s mbolo distinto de {i }. Si estas N secuencias comparten el mismo prejo v, signica que el mismo estado x[t] y, por tanto, la misma salida y[t] sern obtenidos exactamente N veces durante una poca a e en el contexto de v. Entonces, puede considerarse el error acumulado debido al prejo v como: n(1 yi [t])2 + (N n)(yi [t])2 Derivando la ecuacin anterior con respecto a yi [t], obtenemos: o 2n(1 yi [t]) + 2(N n)yi [t] (4.8) (4.7)
La segunda derivada es 2N > 0. Luego el m nimo se obtiene cuando yi [t] = n/N , es decir, cuando el valor predicho por la red neuronal para el s mbolo i tras leer el prejo v coincide con la frecuencia relativa con que i sigue a v. Un buen algoritmo de entrenamiento deber descubrir este m a nimo. En el caso del aprendizaje en l nea se puede constatar emp ricamente que las salidas tienden a valores cercanos a las probabilidades reales, aunque la propia naturaleza temporal del entrenamiento no permite demostrar una convergencia eventual como en el caso anterior. Las dos principales suposiciones de la discusin anterior que no se mantienen en el entrenamiento o en l nea son: 1. Como los pesos se ajustan de forma continua, las N apariciones del prejo v no resultarn en el mismo estado y en la misma salida de la a red. 2. La funcin de error ya no es global y la existencia de unos m o nimos adecuados ya no es demostrable, al menos no de forma tan sencilla como en el caso del aprendizaje fuera de l nea. El entrenamiento en l nea puede ser preferible en ocasiones, ya que suele provocar una reduccin en el tiempo de aprendizaje con respecto a las eso trategias fuera de l nea y, adems, es idneo para entornos no estacionarios. a o Elman (1990) conjetur que la RRS deber desarrollar representaciones ino a ternas de las propiedades temporales de las secuencias de entrada. Aunque as ocurre de hecho, el entrenamiento usado en su art culo era en l nea y, como ya hemos comentado, la falta de un modelo terico completo para este o tipo de aprendizaje hace dif demostrar algn tipo de equivalencia en el cil u l mite con el aprendizaje fuera de l nea.
4.4. METODOS BASADOS EN DERIVADAS
41
4.4. Mtodos basados en derivadas e

Los algoritmos de entrenamiento modican los parmetros congurables a de la red3 intentando minimizar la medida de error E; es un problema complejo de optimizacin sin restricciones para el que es necesario aplicar o criterios heur sticos. Los principales algoritmos de entrenamiento se basan en el clculo del a gradiente de la funcin de error, esto es, de la derivada de la funcin de o o error con respecto a los distintos parmetros ajustables de la red. Se trata a de intentar encontrar el m nimo de la funcin de error mediante la bsqueda o u de un punto donde el gradiente se anule.4 Una de las variantes basadas en el gradiente ms utilizadas es el descenso a por el gradiente. En l los sucesivos ajustes realizados a los parmetros se e a hacen de forma individual para cada uno de ellos, digamos Wi , en sentido opuesto al vector de gradiente E[n]/Wi [n]: Wi [n + 1] = Wi [n] E[n] Wi [n] (4.9)
donde es un parmetro conocido como tasa de aprendizaje, que ha de a tomar un valor convenientemente pequeo. Al pasar de la iteracin5 n a la n o n + 1, el algoritmo aplica la correccin: o Wi [n] = Wi [n + 1] Wi [n] = E[n] Wi [n] (4.10)
Puede demostrarse (Haykin 1999) que para valores positivos muy pequeos de la tasa de aprendizaje y funciones de error globales, la formulacin n o del algoritmo de descenso por el gradiente permite que la funcin de error o decrezca en cada iteracin. La tasa de aprendizaje tiene, por tanto, una o enorme inuencia en la convergencia del mtodo de descenso por el gradiene te. Si es pequea, el proceso de aprendizaje se desarrolla suavemente, pero n la convergencia del sistema a una solucin estable puede llevar un tiempo o excesivo. Si es grande, la velocidad de aprendizaje aumenta, pero existe el riesgo de que el proceso de aprendizaje diverja y el sistema se vuelva inestable. Es habitual aadir un trmino de momento (Plaut et al. 1986; Rumelhart n e et al. 1986) a (4.10) que en ocasiones puede acelerar el aprendizaje y reducir
Normalmente los pesos de la red, aunque tambin pueden considerarse otros elementos e como el estado inicial x[0] (Bulsari y Saxn 1995; Forcada y Carrasco 1995). e 4 Esta condicin es necesaria, pero no suciente debido a la existencia de m o nimos locales, mximos o puntos de silla; de ah el carcter heur a a stico del mtodo. e 5 El momento preciso de la actualizacin de los parmetros depende del carcter en o a a l nea o fuera de l nea del entrenamiento.
3
42
4. ENTRENAMIENTO
el riesgo de que el algoritmo se vuelva inestable. La nueva ecuacin de o actualizacin del parmetro ajustable Wi tiene la forma: o a Wi [n] = Wi [n + 1] Wi [n] = E[n] + Wi [n 1] Wi [n] (4.11)
donde es la tasa de aprendizaje y es la constante de momento. El efecto del momento es el siguiente: si la derivada parcial del error tiene el mismo signo algebraico durante varias iteraciones seguidas (lo que indicar que se est descendiendo por una ladera), el trmino Wi [n] ir a a e a creciendo y el incremento del parmetro ser mayor; si la derivada parcial a a cambia de signo constantemente (indicacin de que el algoritmo se encuentra o en una zona complicada), el valor de Wi [n] se va reduciendo y el parmetro a se ajusta de forma ms precisa. a Existen otros mtodos de optimizacin ms sosticados (por ejemplo, e o a mtodos que consideran la informacin suministrada por las derivadas de e o segundo orden6 ), que, en general, proporcionan mejores resultados que el descenso por el gradiente, a veces simplemente con una leve modicacin. o Algunos de ellos son el mtodo de Newton, el algoritmo de Levenberge Marquardt o el mtodo de los gradientes conjugados (Shepherd 1997). Todos e ellos han sido utilizados abundantemente sobre redes no recurrentes y escasamente con redes recurrentes (Chang y Mak 1999; Chan y Szeto 1999). A continuacin veremos tres algoritmos de entrenamiento que se basan o en el clculo del gradiente. Los dos primeros, el aprendizaje recurrente en a tiempo real y la retropropagacin a travs del tiempo, de hecho, usan el o e descenso por el gradiente y se pueden considerar ms bien como formas a distintas de calcular el valor de la derivada correspondiente. El tercero de ellos, el ltro de Kalman extendido desacoplado, usa de un modo ms a elaborado que el descenso por el gradiente las derivadas de la funcin de o error, calculadas de cualquiera de las dos formas anteriores.
4.5. Aprendizaje recurrente en tiempo real

Como ya se ha dicho al nal del apartado anterior, el aprendizaje recurrente en tiempo real (RTRL, por el ingls real-time recurrent learning) e (Williams y Zipser 1989) se considerar aqu como una forma de calcular las a derivadas parciales de la funcin de error, aunque algunos autores se reeren o a l como un algoritmo de entrenamiento per se al combinarlo con el ajuste e de pesos realizado con el descenso por el gradiente.
En cualquier caso, los mtodos de segundo orden no evitan el problema de los m e nimos locales.
6
4.5. APRENDIZAJE RECURRENTE EN TIEMPO REAL
43
Con un ejemplo es ms sencillo entender la forma de calcular las derivaa das en RTRL. 4.5.1. Ejemplo de clculo de las derivadas del error a En este apartado se derivarn las ecuaciones de RTRL para una RRS, a cuya dinmica viene denida por las ecuaciones (3.5) a (3.8). La derivacin a o de las ecuaciones para otros tipos de redes recurrentes suele ser muy similar a la de la RRS. Consideremos una funcin de error cuadrtico como la de (4.1). Aplicano a do la regla de la cadena y considerando un parmetro ajustable cualquiera, a se tiene que:
E[t] =
nY
(dl [t] yl [t])

l=1
yl [t]
(4.12)
En lo anterior, la derivada yl [t]/ depende del parmetro concreto consia derado. A continuacin se dan las expresiones de estas derivadas para todos o los pesos y sesgos de la red:7
yl [t] Wiy yl [t] y,x Wi,j yl [t] Wjx yl [t] x,u Wj,k yl [t] x,x Wj,k
= gY (Yl [t]) l,i = gY (Yl [t]) xj [t]l,i

nX
(4.13) (4.14) xi [t] Wjx xi [t] x,u Wj,k xi [t] x,x Wj,k (4.15)
= gY (Yl [t])
i=1 nX
y,x Wl,i
= gY (Yl [t])
i=1 nX
y,x Wl,i
(4.16)
= gY (Yl [t])
i=1
y,x Wl,i
(4.17)
La derivada de la funcin log o stica es gL (x)(1 gL (x)). La derivada de la funcin o 2 tangente hiperblica es 1 gT (x). o
44
4. ENTRENAMIENTO
Para la derivacin de las ecuaciones anteriores debe tenerse en cuenta o las siguientes expresiones: Wiy Wjy
y,x Wi,j y,x Wk,l
= i,j = i,k j,l = i,j = i,k j,l = i,k j,l
(4.18) (4.19) (4.20) (4.21) (4.22)
Wix Wjx
x,u Wi,j x,u Wk,l x,x Wi,j x,x Wk,l
donde la funcin i,j es la delta de Kronecker, ya denida en (4.3). o Las derivadas del estado xi [t] de las ecuaciones (4.15) a (4.17) son recurrentes en RTRL como resultado de la propia recurrencia de la red: xi [t] Wjx xi [t] x,u Wj,k xi [t] x,x Wj,k
nX
= gX (Xi [t]) i,j +

k=1
x,x Wi,k nX
xk [t 1] Wjx
x,x Wi,m nX
(4.23)
= gX (Xi [t]) uk [t]i,j +

m=1
xm [t 1] x,u Wj,k xm [t 1] x,x Wj,k
(4.24)
= gX (Xi [t]) xk [t 1]i,j +

m=1
x,x Wi,m
(4.25)
La implementacin de un algoritmo de descenso por el gradiente a partir o de estas ecuaciones es sencilla.
4.6. Retropropagacin en el tiempo o

Al igual que hicimos con RTRL, consideraremos la retropropagacin a o travs del tiempo (BPTT, por el ingls backpropagation through time) (Rue e melhart et al. 1986; Williams y Peng 1990) como una forma de calcular las derivadas parciales de la funcin de error con respecto a los parmetros ajuso a tables de la red, aunque hay autores que denominan BPTT a la combinacin o de lo anterior con el descenso por el gradiente. Al calcular las derivadas parciales en BPTT se asume que el comportamiento temporal de la RNR puede ser desplegado en el espacio en forma de
4.6. RETROPROPAGACION EN EL TIEMPO
45
y[t] W xy x[t] W xx x[t 1] W xx W xx x[1] W xx x[0] W ux u[1] W ux u[2] W ux W ux u[t]
Figura 4.1: Una RRS desplegada en el instante t segn BPTT. u
red hacia adelante. Es posible aplicar entonces el conocido algoritmo de retropropagacin (Rumelhart et al. 1986) para calcular las derivadas parciales o de este tipo de redes. El despliegue de la RNR hace que la red hacia adelante (red extendida) vaya creciendo una y otra vez tras cada instante de tiempo. As suponiendo , una RRS, las unidades de entrada y las unidades de estado del instante t se convierten en dos nuevas capas en la red extendida; las unidades de entrada y las unidades ocultas del instante t1 se convierten tambin en dos e nuevas capas de la red extendida; y as sucesivamente hasta llegar al primer instante de tiempo. Como realmente solo existe un conjunto de unidades de entrada y de unidades ocultas, los pesos equivalentes en las distintas capas virtuales han de tener idntico valor. El algoritmo de retropropagacin e o permite obtener la contribucin al error total de cada una de las versiones o de los pesos, pero a la hora de actualizarlos debe considerarse la suma de las contribuciones de los pesos equivalentes. En la gura 4.1 se muestra la red desplegada utilizada en el instante t.
46
4. ENTRENAMIENTO
Cuando el entrenamiento es por secuencias, el tamao de cada secuencia n determina el de la red extendida; en el caso de una secuencia de longitud relativamente extensa, las necesidades temporales y espaciales del algoritmo crecer linealmente conforme la red fuera procesando las entradas. Por an ello, en estos casos, la historia de la red se trunca y se considera irrelevante cualquier informacin anterior a t0 instantes de tiempo. El valor t0 se conoce o como umbral de truncamiento y la tcnica resultante como BPTT truncada. e 4.6.1. Ejemplo de clculo de las derivadas del error a En este apartado se deriva las ecuaciones de BPTT para una RRS con la dinmica denida por las ecuaciones (3.5) a (3.8), y que desplegada en el a tiempo tiene el aspecto de la gura 4.1. La red neuronal de esa gura es una red no recurrente con lo que las derivadas de la funcin de error sern las o a mismas que las calculadas con la tcnica de retropropagacin (Rumelhart e o et al. 1986), de la que no mostraremos aqu los detalles. Si se utiliza el descenso por el gradiente, el algoritmo se limita a actualizar cada peso (no se muestran las ecuaciones de los sesgos) mediante la llamada regla delta generalizada como sigue:
y,x Y Wi,j [t] = i [t] xj [t] x,x Wi,j [t] = t X i [ ] xj [ 1] =1 t X i [ ] uj [ ] =1
(4.26) (4.27) (4.28)
x,u Wi,j [t] =
donde la seal de error Y y la seal de error retropropagada X se denen n n a partir de:

Y i [t] = X i [t]
E[t] Yi [t]
nY y,x Y j [t] Wj,i
(4.29) (4.30)
= gX (Xi [t])
j=1
y para 1 < t,
nX X i [ ] = gX (Xi [ ]) j=1 x,x X j [ + 1] Wj,i
(4.31)
La seal de error retropropagada puede verse como un emisario del pren sente t que viaja hacia atrs en el tiempo para inuir en el pasado de forma a que este contribuya en mayor medida a los acontecimientos que se desear a haber observado en el presente.
4.7. FILTROS DE KALMAN
47
4.7. Filtros de Kalman
El ltro de Kalman (Kalman 1960) sirve para estimar el estado de un determinado sistema dinmico lineal cuyo modelo no es completamente coa nocido y al que se accede a travs de un proceso de medicin que tambin e o e posee un cierto nivel de ruido. El ltro permite utilizar la informacin o incompleta del modelo para mejorar de forma recursiva la estimacin del o estado del sistema proporcionada por la medicin. Por otro lado, el ltro o de Kalman extendido es una adaptacin del anterior que permite trabajar o sobre sistemas no lineales. El ltro de Kalman ha sido objeto de un gran nmero de investigaciones u y aplicaciones en multitud de reas como la navegacin mar a o tima, la instrumentacin en centrales nucleares o la visin articial. Aqu nos centraremos o o en su aplicacin al entrenamiento supervisado de redes neuronales. o Normalmente, los algoritmos de descenso por el gradiente son menos rpidos de lo deseado debido a que solo utilizan la ultima estimacin del a o gradiente: las derivadas de la funcin de error solo toman en cuenta la o distancia entre la salida actual y la correspondiente salida deseada sin usar a la hora de actualizar los parmetros ninguna informacin sobre la historia a o anterior del entrenamiento. El ltro de Kalman extendido desacoplado (Puskorius y Feldkamp 1994; Haykin 1999) se basa en el ltro de Kalman extendido para superar la limitacin anterior y considerar el entrenamiento como un problema de ltrado o ptimo en el que se encuentra recursivamente una solucin al problema de o o los m nimos cuadrados.8 En todo momento se utiliza toda la informacin o suministrada a la red hasta el instante actual, incluidas todas las derivadas calculadas desde la primera iteracin del proceso de aprendizaje. Sin emo bargo, el algoritmo funciona de tal modo que solo es necesario almacenar expl citamente los resultados de la ultima iteracin. o
El problema de los m nimos cuadrados consiste en encontrar la curva que mejor aproxima un conjunto de datos determinado de manera que se minimice la distancia media entre los datos y la curva.
48
4. ENTRENAMIENTO
4.7.1. El ltro de Kalman El ltro de Kalman (1960) (FK) intenta estimar el estado9 w[t] R n de un sistema dinmico lineal de tiempo discreto gobernado por la ecuacin: a o w[t + 1] = Aw[t] + Bu[t] + [t] (4.32)
donde u[t] es la entrada del sistema, con una medicin d[t] Rm que es: o d[t] = Hw[t] + [t] (4.33)
donde A, B y H son conocidas. Las variables aleatorias [t] y [t] representan el ruido del proceso y de la medicin, respectivamente. Se asume o que se trata de ruido blanco10 de media cero y con matrices de covarianza diagonales Q[t] y R[t]: [t] T [t] [t] [t]
T
= Q[t] = R[t]
(4.34) (4.35)
En cada paso el ltro proyecta la estimacin del estado actual y de la o covarianza actual hacia adelante en el tiempo para obtener una estimacin o a priori para el siguiente paso. Despus utiliza los resultados de la medicin e o real para mejorar esta estimacin y obtener una estimacin a posteriori. o o Este proceso tambin puede verse como un ciclo de prediccin y correccin. e o o Sea w [t] la estimacin a priori del estado en el instante t a partir del o conocimiento anterior al paso t: w [t] = Aw[t 1] + Bu[t 1] (4.36)
La estimacin a posteriori del estado, w[t], se obtiene como una combio nacin lineal de la estimacin a priori w [t] y la diferencia ponderada entre o o la medicin real d[t] y una prediccin de la medida H w [t]: o o w[t] = w [t] + K[t](d[t] H w [t]) (4.37)
La expresin (d[t]H w [t]) se denomina residuo o innovacin de la medida o o y reeja la discrepancia entre la medicin predicha y la real. o
Es importante destacar que la nocin de estado utilizada en este apndice es diferente o e a la del resto del trabajo (normalmente, como los valores de activacin de las unidades o recurrentes de una RNR); por ello, para evitar confusiones, la notacin utilizada en este o apndice para el estado es w[t] y no x[t] como es habitual en la bibliograf sobre el tema. e a 10 El espectro del ruido blanco es continuo y uniforme sobre una determinada banda de frecuencia.
9
49
Consideremos ahora los errores de la estimacin a priori y de la estimao cin a posteriori: o e [t] = w[t] w [t] (4.38)
e[t] = w[t] w[t] La covarianza a priori del error de estimacin es: o e [t] (e [t])T = P [t] y a posteriori: e[t] (e[t])T = P [t]
(4.39)
(4.40)
(4.41)
La matriz de ganancia K se elige de manera que se minimice la covarianza del error a posteriori (4.41). Una posibilidad es: K[t] = P [t]H T HP [t]H T + R[t]
1
(4.42)
Debido al ruido, la ecuacin (4.36) tiene asociada una covarianza del o error a priori que se calcula mediante: P [t] = AP [t 1]AT + Q[t] La covarianza del error a posteriori se obtiene de: P [t] = (I K[t]H)P [t] (4.44) (4.43)
Un ciclo del algoritmo consiste en evaluar, por este orden, las ecuaciones (4.36), (4.43), (4.42), (4.37) y (4.44). La naturaleza recursiva del ltro hace que la estimacin del estado del sistema est en funcin de todas las o e o mediciones del pasado pero sin tenerlas que considerar expl citamente. El rendimiento del ltro puede mejorarse mediante el control de las matrices Q[t] y R[t]. Estas matrices pueden jarse antes del funcionamiento del ltro o pueden ir cambindose dinmicamente. As R[t] tendr que ser a a , a ajustada en funcin de nuestra conanza en el mecanismo responsable de la o medicin. Por otra parte, con Q[t] se puede modelizar nuestra incertidumo bre en el modelo (4.32); a veces, un modelo aproximado o incluso alejado del real puede ser util si se introduce suciente ruido en la matriz Q[t].
50
4. ENTRENAMIENTO
4.7.2. El ltro de Kalman extendido Normalmente, el proceso a estimar o la ecuacin de medicin son no o o lineales. Debe hacerse, por tanto, una aproximacin a este caso. Un ltro o de Kalman que linealiza en torno a la media y a la covarianza actual se denomina un ltro de Kalman extendido (FKE).11 Ahora el proceso vuelve a tener un vector de estado w[t] Rn , pero la ecuacin que lo gobierna es: o w[t + 1] = f (w[t], u[t]) + [t] con una medicin d Rm que es: o d[t] = h(w[t]) + [t] (4.46) (4.45)
donde las variables aleatorias [t] y [t] representan, como antes, el ruido de media cero del proceso y de la medida, respectivamente (con matrices de covarianza Q[t] y R[t]). Las funciones f y h son funciones no lineales que relacionan el estado en el instante t con el estado en el instante t + 1 y con la medicin d[t], respectivamente. o Mediante la linealizacin de las ecuaciones de estado y de medicin se o o llega a una serie de ecuaciones equivalentes a las del caso lineal (vase, por e ejemplo, el texto de Welch y Bishop (2002) para ms detalles). As la a , estimacin a priori del estado (4.36) se aproxima ahora haciendo: o w [t] = f (w[t 1], u[t 1]) y la covarianza del error a priori (4.43) se calcula con: P [t] = A[t 1]P [t 1](A[t 1])T + W [t 1]Q[t 1](W [t 1])T (4.48) donde A y W son matrices nuevas. La matriz A se dene ahora como la matriz de derivadas parciales (jacobiano) de f respecto al estado: f1 f1 f1 [t] [t] [t] w1 w2 wn f2 f2 f2 [t] [t] [t] w1 w2 wn (4.49) A[t] = ............................. fn fn fn [t] [t] [t] w1 w2 wn
Existen otras propuestas para aplicar el FK a sistemas no lineales distintas a la que mostraremos en este apartado (Julier y Uhlmann 1997).
11
(4.47)
51
donde se ha abreviado fn [t] por fn (w[t], u[t]). Por otra parte, W es la matriz de derivadas parciales de f respecto al ruido : W [t] = ............................ fn fn fn [t] [t] [t] 1 2 n donde de nuevo se ha escrito fn [t] por fn (w[t], u[t]). La matriz de ganancia (4.42) se obtiene en el ltro extendido a partir de la ecuacin: o K[t] = P [t](H[t])T H[t]P [t](H[t])T + V [t]R[t](V [t])T
1
f1 [t] 1 f2 [t] 1
f1 [t] 2 f2 [t] 2
f1 [t] n f2 [t] n
(4.50)
(4.51)
donde H es aqu el jacobiano de las derivadas parciales de h respecto al estado: h1 h1 h1 [t] [t] [t] w1 w2 wn h2 h2 h2 [t] [t] [t] w2 wn H[t] = w1 (4.52) ............................. hm hm hm [t] [t] [t] w1 w2 wn donde se ha abreviado hm [t] por hm (w [t]), y V es la matriz de derivadas parciales de f respecto a : V [t] = ............................. hm hm hm [t] [t] [t] 1 2 m donde otra vez se ha escrito hm [t] por hm (w [t]). h1 [t] 1 h2 [t] 1 h1 [t] 2 h2 [t] 2 h1 [t] m h2 [t] m
(4.53)
52
4. ENTRENAMIENTO
La estimacin a posteriori del estado (4.37) utiliza tambin aqu K para o e ponderar la diferencia entre la medicin real y una prediccin de la medida: o o w[t] = w [t] + K[t](d[t] h(w [t])) (4.54)
Finalmente, la covarianza del error tiene una forma similar a la del caso lineal (4.44), aunque debe tenerse en cuenta que ahora H[t] se calcula de manera diferente al caso lineal: P [t] = (I K[t]H[t])P [t] (4.55)
La operacin bsica del FKE se puede resumir en los siguientes pasos. o a En primer lugar, se proyectan las estimaciones del estado y de la covarianza del error del instante t al t +1 haciendo uso de las ecuaciones (4.47) y (4.48). Despus ha de hacerse uso de estas nuevas estimaciones a priori para obtener e unas corregidas al considerar la medicin d[t]. Las ecuaciones (4.51), (4.54) o y (4.55), por este orden, nos dan las estimaciones a posteriori del estado y de la covarianza del error. De nuevo, R[t] y Q[t] son parmetros ajustables a del algoritmo.
4.8. Entrenamiento de una red neuronal con el ltro de Kalman

Para poder aplicar el FK al entrenamiento de redes neuronales (recurrentes o no), el aprendizaje se considera como un problema de ltrado en el que los parmetros ptimos de la red se estiman de forma recursiva a partir a o de las ecuaciones del ltro (Puskorius y Feldkamp 1991; Haykin 2001). El algoritmo es especialmente idneo para situaciones de aprendizaje en l o nea, en las que los pesos se ajustan continuamente, aunque tambin puede aplicarse e al procesamiento fuera de l nea (Feldkamp y Puskorius 1994). Comencemos considerando que el estado de la red, que denotaremos por w[t], viene dado por los valores de sus pesos.12 La ecuacin que describe el sistema es lineal y sigue la ecuacin (4.32) o o con A = I, B = 0 y = 0 (esta ultima igualdad la reconsideraremos ms a adelante): w[t + 1] = w[t] (4.56)
Esta ecuacin asume que el sistema se encuentra en un estado ptimo y o o estable, por tanto. Este estado puede corresponder a un m nimo local o global de la supercie de error.
El estado de las redes neuronales recurrentes de tiempo discreto expl citamente en las ecuaciones del ltro de Kalman.
12
x[t] no se representa
4.8. ENTRENAMIENTO DE UNA RED NEURONAL CON EL FILTRO DE KALMAN
53
La medida es la salida deseada de la red neuronal. Se trata, por tanto, de una ecuacin no lineal como la ecuacin (4.46) con la forma: o o d[t] = y[t] + [t] (4.57)
donde y[t] es la salida de la red cuando se aplica a sus entradas u[t], esto es, la no linealidad global de la red y[t] = h(w[t]). Debido a que la ecuacin de estado es lineal, el ltro de Kalman utilizar o a las ecuaciones (4.36) y (4.43) con A = I, B = 0 y Q[t] = 0. La no linealidad de la ecuacin (4.57) aade las restantes ecuaciones del ltro: las ecuaciones o n (4.51), (4.54) y (4.55) con h igual a la salida de la red y[t] cuando utiliza los pesos w[t]. El jacobiano V [t] de la ecuacin (4.51) se hace normalmente igual a la o matriz unidad, V [t] = I, ante la dicultad de una estimacin correcta de su o valor. Se asume, entonces, que su inuencia est de alguna manera oculta a dentro de R[t]. El valor de la medida real de la ecuacin (4.54) es el valor de la salida o deseada de la red. Las derivadas parciales de la matriz H[t] se calculan normalmente mediante BPTT o RTRL. Con todo lo anterior, ya tendr amos una versin del denominado ltro o de Kalman extendido global (FKEG). No obstante, para su utilizacin real o como algoritmo de entrenamiento de redes neuronales es aconsejable la introduccin de algunas modicaciones. o 4.8.1. El ltro de Kalman extendido desacoplado Cuando se trabaja con redes de cierto tamao, el vector de estado w[t] n puede tener un nmero considerable de componentes (tantos como pesos tenu ga la red). Ello ocasiona que los clculos sobre matrices como H[t] requieran a una cantidad elevada de recursos computacionales, incluso para redes de tamao moderado. El ltro de Kalman extendido desacoplado (FKED) reduce n esta complejidad (Puskorius y Feldkamp 1991; Haykin 2001). El FKED divide los pesos de la red en g grupos, wi , i = 1, . . . , g, para lograr que el problema sea computacionalmente tratable. Habr tantos a 13 y dos pesos pertenecern al mismo grupo grupos como neuronas en la red a si forman parte de la entrada de una misma neurona. La versin desacoo plada, por lo tanto, aplica el ltro de Kalman extendido a cada neurona independientemente para estimar el valor ptimo de los pesos que llegan a o
En el caso de la red LSTM, se considera un grupo para cada neurona, celda de memoria y compuerta diferente, con lo que resulta g = nM (nC + 3) + nY , si se usan compuertas de olvido.
13
54
4. ENTRENAMIENTO
ella. De esta forma, solo se consideran las interdependencias locales durante el entrenamiento. La principal diferencia entre la versin desacoplada y la global es la o sustitucin de la matriz H[t] de la ecuacin (4.52) por g matrices de la o o forma: Hi [t] = y1 y1 y1
[t] [t] [t] [t] (i) (i) (i) w1 w2 wn ................................ ynY ynY ynY [t] [t] [t] (i) (i) (i) w1 w2 wn w1 y2
(i)
[t]
w2 y2
(i)
[t]
wn y2
(i)
(4.58)
con i = 1, . . . , g, y donde wj es el j-simo peso del grupo i. Se ha supuese to que n es el nmero de pesos del grupo i. Con esto, la matriz H[t] es u simplemente la concatenacin de las matrices Hi [t]: o H[t] = (H1 [t], H2 [t], . . . , Hg [t]) (4.59)
(i)
Es fcil observar que el ltro de Kalman extendido desacoplado se reduce al a global cuando g = 1. A continuacin se muestra el algoritmo de la versin desacoplada del o o 14 ltro de Kalman extendido:
1. Hacer g igual al nmero de neuronas de la red. u 2. Iniciar los pesos de la red, wi [0], i = 1, . . . , g. 3. Iniciar los elementos de la diagonal de R[0] y Pi [0].
Para el clculo de la matriz inversa en los experimentos de esta tesis se utiliz la a o versin de 23 agosto de 1999 de newmat10, desarrollada por Davies (1994). La rutina para o el clculo de la inversa se basa en la que aparece en el libro de Press et al. (1988). a
14
4.8. ENTRENAMIENTO DE UNA RED NEURONAL CON EL FILTRO DE KALMAN
55
4. Para t = 1, 2, . . . e i = 1, . . . , g, calcular las siguientes ecuaciones: i w [t] = wi [t 1] Pi [t] = Pi [t 1] Ki [t] = Pi [t](Hi [t])T
j=1 g
(4.60) (4.61) 1 Hj [t]Pj [t](Hj [t])T + R[t] (4.62)
wi [t] =
i w
+ Ki [t](d[t] y[t])
(4.63) (4.64)
Pi [t] = (I Ki [t]Hi [t])Pi [t]
donde d[t] es la salida deseada de la red en el instante t e y[t] es la salida real de la red para la entrada u[t]. Ntese que las dos primeras o ecuaciones son innecesarias en la implementacin del algoritmo y pueo de trabajarse con las estimaciones a posteriori del instante anterior directamente. 5. Actualizar R[t]. 4.8.2. Control de la divergencia del ltro La forma no lineal del FKED provoca numerosas dicultades numricas e a la hora de su implementacin, que hacen que el ltro diverja de la solucin o o correcta. Una forma heur stica de evitar esta divergencia (Haykin 1999, p. 769) es aadir ruido a la ecuacin del proceso, haciendo que [t] = 0. El unico n o cambio sobre la forma descrita anteriormente para el FKED es la ecuacin o (4.64) que se convierte en: Pi [t] = (I Ki [t]Hi [t]) Pi [t] + Qi [t] (4.65)
Adems de evitar la divergencia, la introduccin de Qi [t] tiene el efecto a o secundario de hacer que el algoritmo tenga menor propensin a quedarse o atrapado en m nimos locales. Normalmente se usa la misma matriz para todos los grupos, por lo que hablaremos simplemente de Q[t]. A continuacin o se indican algunas pautas para dar valores a los parmetros iniciales del a FKED. 4.8.3. Parmetros iniciales del algoritmo a Los parmetros a ajustar en la inicializacin del FKED son: a o
56
4. ENTRENAMIENTO
El valor inicial de la covarianza del error a posteriori Pi [0]; este valor se suele inicializar como Pi [0] = I, donde es una constante positiva. Los elementos diagonales de las matriz inicial de covarianza del ruido de la medida R[0]; estos elementos se templan normalmente, como se ver ms abajo, desde un valor inicial a valores ms bajos conforme a a a avanza el entrenamiento.15 Los elementos de la diagonal de la matriz de covarianza inicial del error del proceso Q[0]; estos valores tambin se templan. e El templado de los elementos de las matrices de covarianza pasa por darles un valor o temperatura inicial e ir decrementndolo paulatinamente a segn una determinada tasa de reduccin de la temperatura T . Por ejemplo, u o consideremos que los valores de la diagonal de la matriz R[0] se inicializan con un valor Rmx y se templan con una tasa T hasta alcanzar el valor Rm , a n lo que expresaremos con la notacin: o R[t] : Rmx Rm a n La ecuacin que se aplicar en esta tesis para obtener la evolucin de los o a o parmetros es: a R[t] = Rmx Rm a n + Rm n exp(t/T ) (4.66)
T
La gura 4.2 muestra cmo inuye la tasa de reduccin de la temperatura o o T en la evolucin de R[t]. o
4.9. Coste computacional

La complejidad del algoritmo de descenso por gradiente viene determinada principalmente por la complejidad de los esquemas de clculo de las a derivadas de la funcin de error empleados. o La complejidad temporal de BPTT cuando se aplica a redes de primer orden como las del ep grafe 3.1.1 con nX nU y nX nY es O(n2 ),16 X esto es, una complejidad temporal asinttica de la misma familia que la de o los clculos que determinan el valor de la salida de la RNR a partir de la a
Podr pensarse que el templado no es compatible con el aprendizaje en l a nea. Aun as si el entorno es estacionario o semiestacionario, el templado puede usarse para reducir , nuestra incertidumbre sobre l conforme se avanza en el procesamiento de la entrada. El e templado debe descartarse o se debe incrementar los valores inferiores cuando el entorno es no estacionario. 16 La ecuacin (4.31) se implementa en un bucle con i = 1, . . . , nX . o
15
4.9. COSTE COMPUTACIONAL
57
Figura 4.2: Evolucin de la matriz de covarianza del error del FKED segn la o u tasa T .
entrada actual y del estado de la red. Esta es una de las grandes ventajas de BPTT. El coste espacial, sin embargo, es uno de sus grandes inconvenientes, ya que es necesario almacenar varias rplicas de la red; adems, en el caso e a de BPTT no truncada, debe guardarse todas las entradas procesadas hasta el instante actual. Aunque la complejidad espacial al calcular las derivadas con RTRL es mucho menor que la de BPTT, su complejidad temporal es muy superior. Cuando se aplica RTRL a RNR de primer orden con nX nU y nX nY , la complejidad temporal es O(n4 ).17 X Muchos autores, por ejemplo Schmidhuber (1992), han propuesto algoritmos h bridos que combinan ecientemente lo mejor de ambos algoritmos. Finalmente, el FKED se apoya en el clculo de la derivada del error, a que puede realizarse tanto con BPTT como con RTRL. El coste es, por tanto, como m nimo igual al del algoritmo de clculo de derivadas utilizado. a Adems, el FKED realiza en cada paso un buen nmero de operaciones con a u matrices, incluido el clculo de la inversa de una matriz de tamao nY nY . a n
La ecuacin (4.25) se implementa en una serie de bucles anidados con i, j, k = o 1, . . . , nX .
17
" !

10000 20000 30000 40000 50000
58
4. ENTRENAMIENTO
4.10. Mtodos no basados en derivadas e

Los algoritmos basados en gradientes o en derivadas del error son los ms utilizados, con diferencia, para el entrenamiento de RNR. Pero existen a otros algoritmos que evitan el costoso clculo de estas derivadas y que se a basan en la perturbacin de los pesos de la red. Veamos dos algoritmos, o indicados para redes tanto recurrentes como no recurrentes y unicamente para el entrenamiento fuera de l nea.18 Alopex. Unnikrishnan y Venugopal (1994) actualizan los parmetros de la a red mediante pequeas perturbaciones de sus valores, en uno u otro sentido n segn la correlacin entre los sentidos de las perturbaciones recientes y el u o cambio en el error cometido sobre todo el conjunto de entrenamiento. Es un algoritmo especialmente interesante ya que no necesita conocer la forma de la red ni la funcin de error utilizada, lo que lo hace util tambin para o e cualquier tarea de optimizacin distinta a la de las redes neuronales. o Algoritmo de Cauwenberghs. Cauwenberghs (1993) sigue una regla de aprendizaje parecida a la de Alopex. Se suma una perturbacin aleatoria o al vector de pesos actual W y se calcula el error resultante E(W + ). Este nuevo error se utiliza para actualizar el vector de pesos en la direccin o de , si es menor que el error anterior E(W ), o en direccin contraria, si es o mayor que E(W ). El nuevo vector de pesos es, por tanto, W (E(W + ) E(W )), donde es la tasa de aprendizaje.
4.11. Problemas en el aprendizaje

Existen varias circunstancias que pueden hacer que una determinada tarea de procesamiento de secuencias no pueda ser resuelta mediante una RNR. En primer lugar, como ya se coment al comienzo del cap o tulo, es posible que el modelo neuronal elegido no sea idneo para esa tarea en particular, o circunstancia esta dif de evaluar en muchas ocasiones. En segundo lugar, cil aun suponiendo que el modelo elegido sea adecuado (incluyendo tanto el nmero de neuronas como la representacin de la informacin de entrada y u o o salida), es posible que el algoritmo de entrenamiento empleado no sea capaz de encontrar un valor de los pesos correcto. Los motivos que pueden llevar a ello son principalmente dos: la existencia de m nimos locales o de dependencias a largo plazo.
Hay una carencia casi total de algoritmos de entrenamiento en l nea para RNR que no estn basados en el clculo de derivadas. e a
18
4.11. PROBLEMAS EN EL APRENDIZAJE
59
4.11.1. M nimos locales La funcin de error E dene una supercie multidimensional (hipersuo percie) conocida como hipersupercie de error. Normalmente, la hipersupercie de error tiene un m nimo global (posiblemente mltiples m u nimos globales debido a simetr de la red) y muchos m as nimos locales, que pueden no corresponder a una solucin correcta del problema (Bianchini et al. o 1994). Estos m nimos locales son consecuencia de la elevada dimensionalidad del espacio de bsqueda y son el mayor problema, al quedar atrapados u en ellos, de casi todos los algoritmos de aprendizaje de redes neuronales, especialmente de los que realizan una bsqueda local como los basados en u el gradiente. En cualquier caso, el problema de los minimos locales no es espec co de las RNR y afecta a la practica totalidad de los modelos neuronales. 4.11.2. El gradiente evanescente Aunque en un principio el estado de una RNR puede almacenar la informacin relevante sobre la historia de una secuencia, la prctica totalidad o a de los algoritmos de entrenamiento encuentran grandes problemas (en ocasiones insalvables) para mantener esta informacin, especialmente cuando o el intervalo de tiempo entre la presencia de una determinada entrada y la salida deseada correspondiente es relativamente largo (normalmente a partir de unos 10 instantes de tiempo). Esto hace que a la hora de la verdad muchas RNR tengan poca ventaja sobre las redes no recurrentes con ventana temporal. Dependencias a largo plazo. Dada una fuente que genera una secuencia simblica de la forma s[1], . . . , s[tu ], . . . , s[tv ], . . . , diremos que existe una o dependencia a largo plazo entre el s mbolo19 del instante tv y el del instante tu , y lo expresaremos mediante s[tv ] s[tu ], si se cumplen las siguientes condiciones: 1. El valor de s[tv ] depende del valor de s[tu ]; 2. tv tu ;
3. No existe tw con tu < tw < tv tal que s[tv ] s[tw ] s[tu ]. Los algoritmos de entrenamiento de RNR suelen ser inacapaces de constatar las dependencias a largo plazo debido a que la salida actual de la red
Esta denicin puede aplicarse tambin a cualquier tipo de eventos temporales, no o e solo a secuencias simblicas. o
19
60
4. ENTRENAMIENTO
es muy poco sensible a una entrada antigua. En el caso de los algoritmos basados en el gradiente, el hecho anterior puede formularse con cierto detalle (Bengio et al. 1994; Hochreiter et al. 2001) a travs del llamado problema e del gradiente evanescente, que veremos a continuacin. o Flujo de error. Consideremos las seales de error denidas en las ecuan ciones (4.29) a (4.31). Aunque los resultados que se van a mostrar en esta seccin son ciertos independientemente del modelo recurrente considerado, o de la funcin de error utilizada (siempre que sea derivable) y de la manera o en que se calcule el gradiente, me basar en el mtodo visto en el ejemplo de e e BPTT para una RRS del apartado 4.6.1, ya que el anlisis es relativamente a sencillo a partir de l. e En primer lugar, consideremos el ujo de error local entre la i-sima e neurona de salida y la j-sima neurona de estado. Consideremos el caso en e el que el error cometido en el instante t en la neurona de salida, que viene Y representado por i [t], viaja hacia atrs en el tiempo hasta llegar a la a neurona de estado del instante s t. Esta seal de error intenta modicar n el pasado de manera que se obtenga un presente ms conforme con la salida a deseada d[t]. El ujo del error queda escalado, por lo tanto, segn: u
X j [s] Y i [t]
y,x gX (Xj [t]) Wj,i = g (X [s]) X j

nX k=1 X k [s + 1] x,x Wk,j Y i [t]
s=t (4.67) s<t
Si desarrollamos la ecuacin anterior, obtenemos: o

X j [s] Y i [t]
=
nX nX
nX
ls+1 =1 ls+2 =1 lt1 =1
y,x gX (Xj [s]) Wi,lt1
t1 =s+1
gX (Xl [ ]) Wlx,x +1 ,l (4.68)
En general, el ujo de error no ser local, ya que los errores de las nY a neuronas de salida viajarn en el tiempo intentando modicar la j-sima a e neurona de estado en el instante s. Sin embargo, esto no supone inconveniente alguno para el anlisis de esta seccin. Efectivamente, el ujo de error a o global se obtiene a partir de:
nY i=1 X j [s] Y i [t]
(4.69)
4.12. JUSTIFICACION DE LA RED LSTM
61
y, por lo tanto, si cada error local se desvaneciera o explotara, como veremos ahora, tambin lo har el error global. e a Si el trmino |gX (Xl [ ]) Wlx,x +1 | de (4.68) es mayor que 1 para todo , e ,l entonces el productorio crece exponencialmente segn la distancia temporal u entre t y s, es decir, el error explota y a la neurona de estado le llega una seal de error que puede hacer oscilar los pesos y volver inestable el n aprendizaje (Hochreiter et al. 2001). Por otro lado, si |gX (Xl [ ]) Wlx,x +1 | ,l es menor que 1 para todo , el productorio decrece exponencialmente con la distancia entre t y s, es decir, el ujo de error se desvanece y no es posible salvar esta distancia, lo que es un problema cuando [t] [s]. Ntese cmo incrementar el nmero de unidades de estado nX no aumeno o u ta necesariamente el ujo del error, ya que los sumatorios de (4.68) pueden tener signos diferentes. Este anlisis es aplicable a muchas otras RNR, no a solo a la RRS; por ejemplo, Hochreiter et al. (2001) lo aplicaron a una RTR. A la vista de lo anterior, parece plausible que una solucin al problema o x,x pase por intentar que gX (Xl [ ]) Wl ,l +1 = 1 para todo , esto es, un ujo de error constante. La red LSTM se basa en esta idea.
4.12. Justicacin de la red LSTM o

Para simplicar el anlisis de este apartado, consideremos una RNR con a una unica neurona conectada a s misma (Hochreiter y Schmidhuber 1997). En ese caso, el trmino gX (Xl [ ]) Wlx,x +1 obtenido en el apartado anterior e ,l x,x se puede simplicar a g (Xi [ ]) Wi,i . Para garantizar un ujo de error constante, hemos visto que se puede x,x intentar conseguir que g (Xi [ ]) Wi,i = 1. Integrando esta ecuacin respecto o a Xi [t] se tiene que: g(Xi [ ]) = Xi [ ] x,x Wi,i (4.70)
Luego una de las formas de asegurar el ujo de error constante a travs de e x,x esta neurona es obligar a que Wi,i = 1 y usar una funcin de activacin o o identidad para g. A una unidad de este tipo la denominaremos carrusel de error constante (CEC) y es la piedra angular de la red LSTM. Evidentemente, el estudio precedente es extremadamente simple. En general, una neurona recibir entradas adicionales y actuar sobre ms neua a a ronas aparte de ella misma. Cmo podemos garantizar el ujo de error o constante sobre una topolog ms compleja? a a
62
4. ENTRENAMIENTO
Para responder a esta pregunta, podemos considerar dos posibles problemas, que tienen lugar especialmente cuando se consideran dependencias a largo plazo: los que se producen a la entrada de la neurona y los que se producen a su salida. 1. Conictos en los pesos de entrada. Supongamos que la neurona que estamos estudiando ha de gestionar adecuadamente una determinada dependencia a largo plazo [t] [s] activndose en el instante s y a desactivndose en el instante t. En este caso, el algoritmo de entrea namiento intentar que los pesos que llegan a la unidad lineal provea nientes de otras neuronas consigan un doble objetivo: por un lado, mantener la neurona activa durante el intervalo correspondiente; por otro lado, proteger la entrada de la neurona de activaciones irrelevantes que pueden desactivarla. Esta circunstancia hace que el aprendizaje sea dif e invita a controlar de algn modo las operaciones de escricil u tura a travs de los pesos entrantes. e 2. Conictos en los pesos de salida. Los pesos que enlazan la salida de la unidad lineal con otras neuronas tambin se ajustarn intentando e a lograr un doble objetivo: por un lado, acceder a la informacin almao cenada en la neurona; por otro, evitar que esta informacin contamine o a las neuronas enlazadas cuando no corresponde. De manera similar al punto anterior, parece util imponer cierto control en las operaciones de lectura. Las celdas de los bloques de memoria de la red LSTM (vase el apare tado 3.2) instrumentan las ideas anteriores. El CEC con activacin lineal o y conexin recurrente es la caracter o stica principal de las celdas de memoria. Las compuertas de entrada vetan la entrada indeseada al CEC y las compuertas de salida hacen lo mismo con su salida. Los CEC obligan a que el ujo del error sea constante (Hochreiter y Schmidhuber 1997) y permiten superar el problema fundamental del gradiente evanescente; los CEC impiden que la inuencia de la seal se debilite n rpidamente al ir hacia atrs en el tiempo. Como es de esperar, los errores a a correspondientes al CEC o a cualquiera de las compuertas se utilizan en la actualizacin de los pesos. Sin embargo, los CEC son los unicos que siguen o la pista del error hacia atrs en el tiempo; el resto de errores se truncan en a el algoritmo de entrenamiento. Los gradientes ajenos al CEC, por tanto, pueden desvanecerse exponencialmente de la misma forma que en las RNR tradicionales. El seguimiento de las dependencias a muy largo plazo en los CEC permite que la red LSTM pueda detectar adecuadamente eventos interdependientes
63
(1)
xij [t] 0 Wk
(2)
xij [t] ,u 0 Wk,l
(3)
xij [t] ,z 0 Wk,lm
(4)
zij [t 1] 0 Wk i [t] Wj 0
(5)
zij [t 1] 0 ,u Wk,l i [t]

,u Wj,k
(6)
zij [t 1] 0 ,z Wk,lm i [t]

,z Wj,kl
(7)
(8)
(9)
(10)
Zij [t]
Wk
(11)
Zij [t]
,u Wk,l
(12)
Zij [t]
,z Wk,lm
(13)
i [t] z 0 Wjk i [t] z 0 Wjk
(14)
i [t] z,u 0 Wjk,l i [t] z,u 0 Wjk,l
(15)
i [t] 0 z,z Wjk,lm i [t] 0 z,z Wjk,lm
(16)
(17)
(18)
Figura 4.3: Truncamientos totales realizados en el clculo de las derivadas de la a red LSTM en el instante t. Las aproximaciones de esta gura se cumplen para cualquier valor de los sub ndices.
separados por miles de instantes de tiempo discreto, mientras que las RNR tradicionales no suelen ser capaces de manejar correctamente intervalos superiores a unos 10 instantes de tiempo. 4.12.1. Clculo del gradiente a Como se ha visto en este cap tulo, los algoritmos de entrenamiento basados en el gradiente necesitan calcular las derivadas parciales de la no linealidad global de la red, representada por y[t], con respecto a cada uno de los pesos. Estas derivadas son yi [t]/Wj [t] donde i = 1, . . . , nY y Wj es un peso sinptico cualquiera. a La forma de calcular las derivadas de la funcin de salida de la red o LSTM unida a la propia topolog del modelo permite superar el problema a del gradiente evanescente, como se ha dicho anteriormente. El truncamiento realizado sobre ciertas derivadas garantiza que los errores no pueden volver a entrar en las celdas y esto permite el ujo constante del error en el interior de la celda de memoria.
64
4. ENTRENAMIENTO
(19)
xij [t]
Wk
0,
si i = k
(20)
xij [t]
,u Wk,l
0,
si i = k
(21)
xij [t]
,z Wk,lm
0,
si i = k
(22)
xij [t] z 0, Wkl xij [t] 0, z,z Wkl,mn
si ij = kl
(23)
xij [t] z,u 0, Wkl,m
si ij = kl
(24)
si ij = kl
Figura 4.4: Truncamientos parciales realizados en el clculo de las derivadas de a la red LSTM en el instante t.
A continuacin se describen las ecuaciones del gradiente de la red LSTM; o en los casos en los que se realiza algn truncamiento, se indica la expresin u o truncada segn los nmeros que aparecen en las guras 4.3 y 4.4. El grau u diente con respecto a los pesos que inciden en la capa de salida es:
yi [t] Wjy yi [t] y,u Wj,k yi [t] y,z Wj,kl
= gY (Yi [t])i,j = gY (Yi [t])uk [t]i,j = gY (Yi [t])zkl [t]i,j
(4.71) (4.72) (4.73)
Las derivadas con respecto a los pesos de las compuertas de salida son:
yi [t] Wj yi [t] ,u Wj,k yi [t] ,z Wj,kl
1,4
nC k=1
gY (Yi [t])gC (j [t])
y,z Wi,jk gM (xjk [t]) nC l=1 y,z Wi,jl gM (xjl [t]) nC m=1
(4.74) (4.75)
2,5
gY (Yi [t])gC (j [t])uk [t]
3,6
gY (Yi [t])gC (j [t])zkl [t 1]
y,z Wi,jm gM (xjm [t]) (4.76)
65
Las derivadas de la funcin de salida con respecto a los pesos de la o compuerta de entrada, con indicacin de los truncamientos efectuados, son: o yi [t] Wj yi [t]
,u Wj,k
7,19
nC
gY (Yi [t])j [t]

k=1 nC
y,z Wi,jk gM (xjk [t]) y,z Wi,jl gM (xjl [t])
xjk [t] Wj
(4.77) (4.78) (4.79)
8,20
gY (Yi [t])j [t]

l=1 nC
xjl [t]
,u Wj,k
yi [t]
,z Wj,kl
9,21
gY (Yi [t])j [t]

m=1
y,z Wi,jm gM (xjm [t])
xjm [t]
,z Wj,kl
donde se han utilizado los siguientes trminos recurrentes: e xij [t] Wi xij [t]
,u Wi,k
Wi 11 xij [t 1] gZ (Zij [t])gC (i [t])uk [t] + ,u Wi,k gZ (Zij [t])gC (i [t])zkl [t 1] +

12
gZ (Zij [t])gC (i [t]) +
10
xij [t 1]
(4.80) (4.81) (4.82)
xij [t]
,z Wi,kl
xij [t 1]
,z Wi,kl
Finalmente, el gradiente con respecto a los pesos que entran directamente en los bloques de memoria son: yi [t] z Wjk yi [t] z,u Wjk,l yi [t] z,z Wjk,lm
16,22
y,z gY (Yi [t])Wi,jk j [t]gM (xij [t]) y,z gY (Yi [t])Wi,jk j [t]gM (xij [t]) y,z gY (Yi [t])Wi,jk j [t]gM (xij [t])
xij [t] z Wjk xij [t] z,u Wjk,l xij [t] z,z Wjk,lm
(4.83) (4.84) (4.85)
17,23
18,24
donde se han utilizado los siguientes trminos recurrentes: e xij [t] z Wij xij [t] z,u Wij,k xij [t] z,z Wij,kl i [t]gZ (Zij [t]) +
14 13
xij [t 1] z Wij xij [t 1] z,u Wij,k xij [t 1] z,z Wij,kl
(4.86) (4.87) (4.88)
i [t]gZ (Zij [t])uk [t] +

15
i [t]gZ (Zij [t])zkl [t 1] +
5. LAS SOLUCIONES PREVIAS
En el cap tulo 1 se presentaron los problemas que se estudian en esta tesis. Una vez introducidos en los cap tulos anteriores los conceptos fundamentales de las redes recurrentes, mostramos ahora las soluciones previas tanto neuronales como no neuronales planteadas para resolver dichos problemas.
Como este cap tulo complementa lo discutido en 1.2, lo dividiremos en los mismos apartados.
5.1. Compresin de secuencias simblicas o o

5.1.1. Entrop a Supongamos una secuencia simblica s = s[1], s[2], . . . , s[L] generada o bajo un determinado modelo estocstico M basado en estados (por ejemplo, a un modelo oculto de Markov de los discutidos en el apndice A) a partir de e un alfabeto = {1 , . . . , || }. Tras haber generado un determinado prejo de s, digamos s[1], s[2], . . . , s[t] con 1 t < L, el modelo M se encontrar en a un estado q[t] Q, donde Q es el espacio de estados del modelo. Con ayuda de p(i | q[t]) podemos conocer la probabilidad de que el siguiente s mbolo de la secuencia sea i : p(s[t + 1] = i | s[1], s[2], . . . , s[t]) = p(i | q[t]) (5.1)
La probabilidad de una secuencia s de longitud |s| = L se obtiene fcilmente a partir de: a

L L
p(s) =
t=1
p(s[t] | s[1], s[2], . . . , s[t 1]) =

t=1
p(s[t]|q[t 1])
(5.2)
con q[0] = qI , donde qI es el estado inicial del modelo. Sea L el conjunto de secuencias de longitud L que pueden ser generadas a partir del alfabeto . Podemos denir la entrop (Cover y Thomas 1991; a 67
68
Charniak 1993) de este conjunto como: HL (M ) =

sL
p(s) log p(s)
(5.3)
que se mide en bits si el logaritmo es en base 2. La entrop es una medida a L y dene una cota del grado de incertidumbre asociado a las secuencias de inferior del nmero medio de bits necesarios para transmitir las secuencias u del conjunto. Ntese cmo la entrop crece con L. Ya que normalmente no se necesita o o a trabajar con una longitud determinada, una medida ms aconsejable es la a entrop por s a mbolo, que es: 1 1 HL (M ) = L L p(s) log p(s)
sL
(5.4)
De hecho, lo realmente interesante es poder considerar secuencias de longitud arbitraria. Por ello, lo ms habitual es hablar de H(M ), la entrop a a del modelo M , que es el l mite de la entrop por s a mbolo cuando crece la longitud de la secuencia: H(M ) = lim 1 L L p(s) log p(s)
sL
(5.5)
Supongamos ahora que establecemos un modelo de probabilidad alterna tivo M para la probabilidad q de cada secuencia s. Este modelo alternativo permite obtener las probabilidades q(s[t + 1] = i |s[1], s[2], . . . , s[t]) del siguiente s mbolo de una secuencia s y, por tanto, la probabilidad total de la secuencia, q(s), mediante (5.2). La entrop cruzada mide el parecido de ambos modelos de probabilidad a (el alternativo y el real) y alcanza su valor m nimo (igual a la entrop a del modelo real) cuando coinciden. La entrop cruzada es, por tanto, una a medida de la correccin del predictor alternativo y se dene como: o HL (M, M ) =
sL
p(s) log q(s)
(5.6)
Ntese que HL (M, M ) = HL (M ). Se cumple, adems, para cualquier o a modelo M que: HL (M ) HL (M, M ) donde la igualdad se da solo cuando M = M . (5.7)
5.1. COMPRESION DE SECUENCIAS SIMBOLICAS
69
De igual manera, podemos denir la entrop cruzada por s a mbolo como: 1 1 HL (M, M ) = L L p(s) log q(s)
sL
(5.8)
y la entrop cruzada entre M y M como: a 1 H(M, M ) = lim L L p(s) log q(s)

sL
(5.9)
Una medida similar a la entrop cruzada es la entrop relativa, tambin a a e llamada divergencia de Kullback-Leibler, que viene denida por: p(s) log
s
p(s) = H(M, M ) H(M ) q(s)
(5.10)
La divergencia de Kullback-Leibler es siempre positiva, aunque no simtrica, e y vale cero cuando ambas distribuciones de probabilidad coinciden. Normalmente no es posible conocer las probabilidades reales de la secuencia, porque se desconoce el modelo de estados M o, incluso, porque la secuencia no ha sido generada a travs de uno. Deberemos, por tanto, moe delizar buenos predictores que estimen esas probabilidades y que minimicen medidas como la entrop cruzada o la entrop relativa. a a Como veremos a continuacin, un buen modelo de probabilidad es muy o util a la hora de comprimir una secuencia. En este contexto, la razn de o compresin se dene como la razn entre la longitud en bits de la secuencia o o original usando un cdigo de longitud constante y la longitud en bits de la o comprimida. 5.1.2. Compresin de Human o Como ya se ha indicado, la existencia de un modelo de las probabilidades del siguiente s mbolo de una secuencia puede utilizarse para comprimirla. Si los s mbolos del alfabeto son equiprobables, entonces cada s mbolo se codicar con log2 || bits,1 donde x indica el menor entero mayor o a igual que x. Sin embargo, si los s mbolos del alfabeto no son equiprobables, puede intentarse asignar diferentes longitudes a sus codicaciones de manera que las
En toda esta discusin consideraremos que el sistema de codicacin es binario. Exiso o ten tambin resultados para el caso de alfabetos de codicacin de ms de dos s e o a mbolos (Rif` y Huguet 1991). a
1
70
longitudes ms cortas se asignen a los s a mbolos ms probables. No obstante, a debe tenerse cuidado en codicar los s mbolos de manera que la concantenacin de sus codicaciones sea recuperable de forma un o voca y proporcione la secuencia original. Una codicacin que cumpla esta propiedad se denomina o codicacin instantnea. o a La asignacin de cdigos de diferente longitud es el principio del clebre o o e algoritmo de compresion de Human (Bell et al. 1990; Nelson y Gailly 1995). El algoritmo de Human original recibe como entrada un alfabeto = {1 , . . . , || } y un conjunto de probabilidades de aparicin p(i ) de cada o 2 como salida proporciona un cdigo para uno de los s mbolos del alfabeto; o cada s mbolo. La codicacin resultante es, adems, instantnea. o a a Los pasos para construir una codicacin de Human se pueden describir o (Rif` y Huguet 1991) como sigue: a 1. Ordenar todos los s mbolos de por sus probabilidades asociadas. 2. Combinar reiteradamente los dos s mbolos con menor probabilidad para formar un s mbolo compuesto cuya probabilidad ser la suma de a las probabilidades de los dos s mbolos; estas agrupaciones determinan un arbol binario en el que cada nodo es la probabilidad de todos sus descendientes. 3. Al descender por el rbol hacia cada hoja se forma el cdigo corresa o pondiente al s mbolo de esa hoja, si se toma un 0 cada vez que se desciende a un nodo derecho y un 1 en caso contrario (o viceversa). El algoritmo de Human puede considerarse ptimo en el sentido de que o las secuencias codicadas segn el algoritmo tienen la menor longitud posiu ble (siempre que las frecuencias de sus s mbolos se ajusten a las indicadas). Sin embargo, veremos que esto es cierto solo si partimos de la base de que la codicacin se ha de realizar asignando cdigos s o o mbolo a s mbolo, lo cual comporta limitaciones obvias aun cuando se permita que las probabilidades de aparicin cambien dinmicamente. Otras tcnicas, como la compresin o a e o aritmtica, desarrollan una codicacin global de la secuencia y suelen cone o seguir mayores razones de compresin. o 5.1.3. Compresin aritmtica o e Aunque la codicacin de Human se presenta a veces como la forma o perfecta de comprimir datos, la realidad es que los cdigos generados por o ella solo proporcionan codicaciones ptimas (en el sentido de un nmero o u
2
Existen tambin adaptaciones para manejar probabilidades dinmicas contextuales. e a
71
medio de bits por s mbolo igual a la entrop cuando las probabilidades de a) los s mbolos son potencias enteras de 1/2, lo cual no es el caso habitual, y cuando el contexto previo de los s mbolos no facilita su codicacin. o La compresin aritmtica (Bell et al. 1990; Nelson y Gailly 1995) no o e presenta ninguna de estas dos restricciones y obtiene el l mite terico de o la entrop para cualquier mensaje de entrada cuando se utiliza un modelo a correcto de probabilidad. Adems, su uso en entornos en los que las proa babilidades de los s mbolos cambian dinmicamente es directo, lo que no a ocurre con los cdigos de Human. o La compresin aritmtica funciona representando cada secuencia como e pleta con un subintervalo I del intervalo real [0, 1). Cuanto ms largo es a el mensaje, el intervalo necesario para representarlo se hace ms pequeo a n y el nmero de bits necesarios para especicar el intervalo aumenta. Los u sucesivos s mbolos del mensaje van reduciendo este intervalo segn sus prou babilidades. Los s mbolos ms probables lo reducen en menor medida y, por a lo tanto, aaden menos bits al mensaje codicado. n Para mostrar las ideas anteriores con un ejemplo, concentrmonos en un e sistema sencillo en el que las probabilides son estacionarias y no cambian con el paso del tiempo. Supongamos que el alfabeto es = {A, E, I, O, U } con las probabilidades estticas p(A) = 0.12, p(E) = 0.42, p(I) = 0.09, a p(O) = 0.3 y p(U ) = 0.07 (Press et al. 1992, pp. 910ss.). La gura 5.1 muestra cmo se codica la secuencia IOU . El intervalo o [0, 1) se divide en 5 segmentos, uno por cada s mbolo del alfabeto; la longitud de cada segmento es igual a la probabilidad del s mbolo correspondiente. El primer s mbolo de la secuencia, I, estrecha el rango de I a 0.37 I < 0.46. Este subintervalo se divide en 5 subintervalos a su vez, cada uno con longitudes proporcionales a la de las probabilidades correspondientes. El siguiente s mbolo, O, reduce el intervalo I an ms, de manera que ahora u a 0.3763 I < 0.4033. Finalmente, el s mbolo U proporciona el intervalo nal3 0.37630 I < 0.37819. Cualquier nmero de este intervalo puede u considerarse como la codicacin de la secuencia en cuestin; en particular, o o podemos considerar la fraccin binaria 0.011000001 (el nmero binario que o u menos bits necesita dentro del intervalo) que representa a la secuencia IOU y puede enviarse con 9 bits (no es necesario enviar la parte entera, ya que siempre es cero).
Este intervalo no representa unicamente a la secuencia IOU , sino a cualquier secuencia que comience por IOU . . . ; para poder distinguirlas, se suele aadir al alfabeto un s n mbolo especial de terminacin de secuencia al que se asigna una probabilidad muy pequea y o n que solo aparece como ultimo s mbolo de cada secuencia procesada.
72
Figura 5.1: Codicacin aritmtica de la secuencia IOU segn el alfabeto y las o e u probabilidades indicadas en el texto. Figura tomada del libro de Press et al. (1992).
Evidentemente, la descodicacin consiste en invertir el proceso de mao nera que el intervalo considerado se va ensanchando hasta llegar a [0, 1). El descodicador, por lo tanto, ha de conocer el modelo de probabilidad aplicado en cada instante de tiempo. La implementacin prctica del algoritmo requiere algunas consideracioo a nes adicionales debido a la limitada precisin numrica de los ordenadores, o e que impide de entrada la representacin de cantidades con un nmero arbio u trario de cifras decimales. Estos detalles de implementacin pueden encono trarse en el trabajo de Nelson (1991). El ejemplo anterior supon un modelo no adaptativo de las probabilia dades del siguiente s mbolo. En el caso de utilizar un modelo adaptativo las probabilidades pueden reestimarse en cada paso, ajustndolas despus a e de procesar cada s mbolo y considerando la historia previa de la secuencia. Para ello hace falta un predictor que determine las probabilidades del siguiente s mbolo de la secuencia que se utilizan para estrechar el rango I. La razn de compresin obtenida con la compresin aritmtica puede utilizarse o o o e
73
como medida de la calidad del predictor, en tanto que mejores predictores proporcionarn mayores razones de compresin. a o 5.1.4. Modelos de probabilidad de n-gramas Para poder utilizar adecuadamente la compresin aritmtica se necesita o e construir un modelo estad stico de los datos. El ms sencillo es un modelo a jo; por ejemplo, una lista con las frecuencias de aparicin de los distintos o s mbolos. Sin embargo, un modelo que considere unicamente las probabili dades estticas de los diferentes s a mbolos no suele proporcionar una buena estimacin de la entrop real de los datos, como ya hemos comentado. Esto o a ocurre especialmente cuando el entorno en que se genera la secuencia es no estacionario, es decir las propiedades del modelo estocstico que la genera a var con el tiempo. an Una posibilidad para mejorar el modelo anterior es utilizar un modelo de probabilidad adaptativo que evolucione con la secuencia. Los modelos de n-gramas son uno de los ms conocidos dentro de esta ultima categor a a. En un modelo de n-gramas se asume que la identidad del siguiente s mbolo de la secuencia est condicionada por las de los n 1 s a mbolos anteriores, esto es, la ecuacin (5.2) se transforma en: o p(s[t + 1] | s[1], s[2], . . . , s[t]) = p(s[t + 1] | s[t (n 2)], . . . , s[t]) (5.11)
En el caso de los bigramas (donde n = 2), la ecuacin anterior se convierte o en: p(s[t + 1]|s[1], s[2], . . . , s[t]) = p(s[t + 1]|s[t]) (5.12)
La estimacin de las probabilidades del s o mbolo siguiente es sencilla en este caso y puede hacerse mediante: p(s[t + 1] = i | s[t]) = C(s[t]i ) || j=1 C(s[t]j ) (5.13)
donde C() representa el nmero de veces que el argumento ha aparecido en u la secuencia observada hasta el instante actual. La generalizacin al caso de o n-gramas es directa. Para evitar que las probabilidades calculadas con la expresin anterior o sean cero, se suele reservar una pequea parte de la probabilidad para subn secuencias de n-gramas que no han aparecido todav en la secuencia. a Las razones de compresin obtenidas son muy buenas (Nelson 1991) o cuando se utilizan modelos dinmicos y adaptativos de n-gramas y se mana tienen simultneamente modelos de distintos rdenes. Por ejemplo, en la a o
74
tcnica conocida como prediccin por concordancia parcial se busca una e o concordancia de la subsecuencia ms reciente en un modelo de orden n. Si a no se encuentra ninguna concordancia, se baja a un modelo de orden n 1, y as sucesivamente hasta llegar a un modelo de orden 0.4 Las RNR permiten obtener un modelo de las probabilidades del siguiente s mbolo mediante lo que en principio podr considerarse como un modelo a 5 de -gramas. Por otra parte, es de vital importancia que tanto el compresor como el descompresor desarrollen el mismo modelo adaptativo de probabilidad.6 5.1.5. Programas de compresin o Ya que en el cap tulo 6 mostraremos los resultados obtenidos con ellos, se presentan aqu algunos programas conocidos de compresin y las tcnicas o e 7 en las que se basan. El programa gzip utiliza el algoritmo de compresin de Lempel y Ziv o (Ziv y Lempel 1977; Nelson y Gailly 1995), llamado as en honor a sus creadores. Ambos propusieron dos versiones de su algoritmo, una en 1977 (LZ77) y otra en 1978 (LZ78); gzip utiliza la primera. Otro conocido programa de entornos Unix, compress, se basa en LZW (por Lempel, Ziv y Welch), una variacin de 1984 de LZ78. Tanto LZ77 como LZ78 se consio deran compresores sustitucionales: la idea bsica es sustituir la presencia a de una determinada subsecuencia de la secuencia a comprimir por una referencia a una aparicin previa de esa misma subsecuencia. La compresin o o obtenida con estos compresores sustitucionales suele ser mayor que la obtenida con tcnicas basadas en la codicacin de Human (adaptativas o e o no).
4
Un modelo de monogramas solo tiene en cuenta el nmero de veces que ha aparecido u el s mbolo en cuestin; un modelo de 0-gramas considera que todos los s o mbolos son equiprobables. 5 En realidad, la memoria de las RNR estndar es muy limitada y se reduce a unos a cuantos s mbolos debido a los problemas que aparecen al tener que tratar con dependencias a largo plazo (vase el apartado 4.11.2). e 6 En el caso de las redes neuronales, esto implica partir de los mismos valores para todos los parmetros del sistema (los pesos pueden iniciarse aleatoriamente siempre que tanto a compresor como descompresor utilicen el mismo generador de nmeros aleatorios iniciado u con una semilla idntica). e 7 Debe tenerse en cuenta que nuestra intencin es evaluar la capacidad de prediccin de o o las RNR sobre secuencias simblicas; por lo tanto, no tiene mucho sentido comparar los o resultados de algunos programas como gzip o bzip2 con los de un compresor aritmtico e basado en un predictor neuronal. Las razones de compresin con este tipo de compresores o se mostrarn para hacernos una idea de cul puede ser un buen resultado. a a
75
El programa bzip2 utiliza la transformada de Burrows y Wheeler seguida de compresin de Human. Esta transformada (Burrows y Wheeler 1994; o Nelson y Gailly 1995) es un algoritmo de reordenacin reversible; su salida o ordenada se comprime fcilmente con las tcnicas habituales de compresin. a e o La razn de compresin suele ser mayor que la obtenida con compresores o o basados en LZ77 como gzip. Sin embargo, bzip2 comprime las secuencias en bloques por lo que no es muy adecuado para la compresin en l o nea. Ninguno de los compresores anteriores utilizan (al menos, no como parte fundamental de su operacin) un modelo probabil o stico. Por otro lado, uno de los pocos compresores aritmticos existentes es el e desarrollado por Nelson (1991). Este compresor utiliza una combinacin de o modelos de n-gramas de distintos rdenes para estimar las probabilidades, o como se indic antes. o 5.1.6. Diferencias con la inferencia gramatical clsica a Como ya se coment en 1.2.1, en esta tesis el modelo de probabilidad o se obtiene en l nea: las RNR trabajan en tiempo real dando una salida tan correcta como sea posible para cada elemento de la secuencia suministrado en cada iteracin; esta salida se considera como una prediccin de las probao o bilidades del siguiente s mbolo de la secuencia. Esto supone una diferencia fundamental con la forma clsica de abordar la inferencia gramatical, una a tarea que como ya se vi en 1.2.2 ha sido ampliamente estudiada con RNR. o Aunque una de las formas de realizar la inferencia gramatical es entrenar la red para que aprenda a predecir el siguiente s mbolo de la secuencia, el modus operandi seguido tradicionalmente es bastante distinto al de nuestro problema. Bajo el enfoque tradicional, puede demostrarse fcilmente (escria biendo el error de prediccin total como una suma sobre todos los prejos o de todas las secuencias de la muestra) que el modelo neuronal ideal obtenido para un conjunto nito de secuencias nitas por medio de (vase el e apartado 4.3.1 para la demostracin de estas ideas): o 1. entrenamiento intensivo fuera de l nea, 2. uso de una familia de funciones de error global (como la funcin de o error cuadrtico o la distancia de Kullback-Leibler), y a 3. codicacin exclusiva de las salidas deseadas,8 o
Esto implica que la propiedad de convergencia aqu sealada no puede aplicarse a n se ales numricas, unicamente a s n e mbolos discretos.
8
76
proporciona una salida que aproxima tanto como sea posible las frecuencias relativas del siguiente s mbolo observadas en la muestra nita; estas salidas pueden utilizarse como probabilidades aproximadas al tratar secuencias nuevas. El problema considerado en este trabajo es diferente en tres aspectos principales: se procesa una unica secuencia ilimitada, el procesamiento es en l nea y la funcin de error utilizada es local. Nuestro trabajo se basa o en la conjetura, similar a la planteada por Elman (1990, p. 197) de que, incluso bajo estas condiciones distintas, la salida de la red puede seguir considerndose como una aproximacin a las probabilidades del siguiente a o s mbolo. 5.1.7. Trabajos neuronales Se analiza, por lo tanto, el uso de RNR para predecir en l nea el siguiente elemento de una secuencia. La compresin aritmtica se usa para evaluar o e la calidad del predictor. En los experimentos se consideran diferentes generadores de secuencias simblicas que van desde mquinas de estados nitos o a a textos en lenguaje humano. Al contrario que anteriores trabajos (Cleeremans et al. 1989; Schmidhuber y Stefan 1996; Tio y Kteles 1999), que n o utilizaban prediccin fuera de l o nea con estas secuencias, en este trabajo nos concentraremos en la prediccin en l o nea. Hay varios trabajos que discuten el uso de redes neuronales como modelo probabil stico para la codicacin aritmtica de textos en lenguaje humano. o e Schmidhuber y Stefan (1996) usan un perceptrn multicapa con una ventana o temporal de entradas para obtener resultados prometedores mediante retropropagacin estndar (Rumelhart et al. 1986). Un enfoque muy similar es el o a seguido por Long et al. (1999), pero los s mbolos de la secuencia a comprimir se recodican previamente para acercar entre s las representaciones de los s mbolos con un contexto posterior similar. Ambas tcnicas, sin embargo, e trabajan bajo la suposicin de un entrenamiento fuera de l o nea, lo que las hace inadecuadas para entornos no estacionarios o aplicaciones en tiempo real. Mahoney (2000) utiliza codicacin aritmtica y un perceptrn sin capa o e o oculta para comprimir textos en l nea, aunque la tcnica no es completae mente neuronal. Su perceptrn tiene miles o incluso millones de entradas, ya o que se usa una entrada distinta para cada contexto posible, desde el s mbolo anterior a los 5 anteriores. Esta elevada complejidad espacial se ve compensada por una baja complejidad temporal, ya que unicamente hace falta actualizar un nmero reducido de pesos tras cada s u mbolo. Adems, la prea diccin se realiza bit a bit con lo que solo se precisa una neurona de salida. o
5.2. INFERENCIA DE LENGUAJES CON DEPENDENCIAS A LARGO PLAZO
77
La tcnica, sin embargo, no es completamente neuronal, ya que junto a cada e peso se almacenan dos contadores que se encargan de guardar el nmero u de apariciones del contexto asociado. Los resultados de sus experimentos superan los de otras tcnicas de compresin. e o En cuanto a las secuencias de estados nitos, es de esperar buenos resultados con RNR, ya que se ha demostrado (Goudreau et al. 1994; Alquzar y e Sanfeliu 1995; Horne y Hush 1996; Carrasco et al. 2000) la capacidad de distintas RNR de primer y segundo orden para codicar mquinas de estados a nitos.
5.2. Inferencia de lenguajes con dependencias a largo plazo

Como ya se coment en el apartado 1.2.2, una de las formas de realizar o la inferencia de lenguajes es mediante la prediccin del siguiente s o mbolo de una secuencia. Tambin all se coment cmo la red LSTM permite superar e o o parcialmente el problema que surge al tratar las dependencias a largo plazo. Todos los trabajos anteriores de inferencia de lenguajes con LSTM usaban un algoritmo de entrenamiento de descenso por el gradiente para actualizar los pesos. En los trabajos desarrollados para esta tesis, se aplica por primera vez el FKED a la red LSTM y se comparan los resultados obtenidos con los del algoritmo original y con los conseguidos con RNR tradicionales. En primer lugar, se considera la prediccin en l o nea sobre una secuencia generada por el autmata simtrico de Reber (Smith y Zipser 1989) de la o e gura 6.4. Se trata de la primera vez en que la red LSTM se aplica a una situacin de aprendizaje completamente en l o nea: la red tiene que dar en tiempo real una salida tan correcta como sea posible para la entrada aplicada en cada instante de tiempo. Con los experimentos se estudiar qu a e clase de modelo interno desarrolla la red y si este es comparable al obtenido en trabajos anteriores (Hochreiter y Schmidhuber 1997; Gers et al. 2000), en los que la inferencia se realizaba fuera de l nea o solo parcialmente en l nea. En segundo lugar, se ahonda en algunos resultados previos en torno a la capacidad de las RNR para aprender un sencillo lenguaje sensible al contexto, an bn cn , con fuertes dependencias a largo plazo conforme se aumenta el valor de n. Se ha demostrado que las RNR son capaces de reconocer lenguajes derivados de mquinas de estados nitos9 : la mayor parte de los trabajos a relacionados con la inferencia de lenguajes con RNR se ha centrado en ellos.
Vase el libro indito de Forcada (2002) para un repaso del estado de la cuestin de e e o este aspecto.
9
78
Solo unos cuantos autores han intentado ensear a las RNR a extraer las n reglas de algunos lenguajes independientes del contexto o sensibles al contexto (Sun et al. 1993; Wiles y Elman 1995; Tonkes y Wiles 1997; Rodriguez y Wiles 1998; Rodriguez et al. 1999; Bodn y Wiles 2000), que requieren el e equivalente funcional a una o dos pilas, respectivamente, de tamao ilimitan do. Algunos de los trabajos anteriores fracasaron al intentar aprender pequeos conjuntos de entrenamiento de lenguajes independientes del conn texto. Aunque otros trabajos lo consiguieron e incluso algunos llegaron a aprender pequeos conjuntos de entrenamiento de lenguajes sensibles al n contexto (Chalup y Blair 1999; Bodn y Wiles 2000), las redes obtenidas e eran incapaces de generalizar adecuadamente con conjuntos de evaluacin o ligeramente mayores. En esta tesis nos concentraremos en uno de los pocos lenguajes sensibles al contexto a cuyo aprendizaje se han destinado las RNR, a saber, an bn cn . Las RNR tradicionales no son capaces de generalizar adecuadamente con este sencillo lenguaje: Chalup y Blair (1999) constataron que una RRS entrenada mediante un algoritmo voraz pod aprender el conjunto de a entrenamiento para n 12, pero no aportaron datos sobre la capacidad de generalizacin. Bodn y Wiles (2000), por otra parte, entrenaron una red o e secuencial en cascada de segundo orden con BPTT; para un conjunto de entrenamiento con n [1, 10], las mejores redes generalizaban a n [1, 18], pero el entrenamiento solo nalizaba con xito un 2% de las veces (Bodn y e e Wiles 2002). En cualquier caso, debe matizarse que en esta tarea la RNR no se entrena con un lenguaje no regular, ya que una parte nita de un lenguaje como an bn cn es directamente regular. De lo que se trata (Bodn y Wiles 2002) e al estudiar la capacidad de generalizacin de la red es de comprobar si esta o descubre una solucin distinta a la de un autmata nito. o o En esta tesis extenderemos los resultados obtenidos sobre an bn cn por Gers y Schmidhuber (2001) con LSTM y descenso por el gradiente para comprobar si se mantienen, empeoran o mejoran al usar el FKED.
5.3. Desambiguacin categorial o

Son varios los enfoques propuestos para la desambiguacin categorial o automtica. La mayor pueden asociarse a uno de los siguiente grupos: a a 1. Enfoques basados en reglas (Brill 1992), que se basan en el conocimiento ling ustico para determinar la categor lxica de una palabra a e ambigua;
5.3. DESAMBIGUACION CATEGORIAL
79
2. Enfoques estad sticos, que usan las estad sticas recogidas de textos completa o parcialmente etiquetados para estimar la verosimilitud de cada posible interpretacin de una frase o fragmento de esta y escoo ger la desambiguacin ms veros o a mil; los ms representativos de estos a mtodos son los modelos ocultos de Markov (MOM) (Cutting et al. e 1992; Rabiner 1989) entrenados mediante el clsico algoritmo de Baum a y Welch; este mtodo se discute con detalle en el apndice A. e e 3. Evidentemente, son tambin posibles los enfoques h e bridos que combinan caracter sticas de los dos anteriores. Todas las tcnicas neuronales se engloban principalmente dentro del see gundo grupo. A continuacin las repasamos brevemente. o 5.3.1. Trabajos neuronales Las RNR se han usado ampliamente desde su concepcin en tareas de o procesamiento del lenguaje humano. Elman (1990) fue de los primeros en hacerlo: entren su red recurrente simple (RRS) para predecir la siguieno te palabra de un corpus sinttico de oraciones gramaticales sencillas (de e dos o tres palabras) generadas aleatoriamente a partir de un pequeo von cabulario de palabras no ambiguas sin etiquetar. Elman encontr que, tras o el aprendizaje, el estado al que llegaba la red tras leer una palabra permit agrupar las palabras en categor que pod ser identicadas con a as an las tradicionales (nombre, verbo transitivo, verbo intransitivo, etc.). Para poder realizar adecuadamente esta agrupacin la red ten que desarrollar o a una forma de obtener al vuelo una representacin de la sintaxis de la paro te de oracin vista hasta ese momento. Los resultados de los trabajos de o Elman tienen importantes connotaciones desde el punto de vista cognitivo: los humanos aprendemos sintaxis y morfolog simplemente por nuestra exa posicin continua a las co-apariciones internas en oraciones no etiquetadas. o Este aspecto del trabajo de Elman queda atenuado por la poca verosimilitud neurobiolgica (Forcada y Carrasco 2001) de los modelos de tiempo discreto o que son las RNR. En esta tesis se estudia la aplicacin de una RNR al problema de la o desambiguacin categorial de las palabras ambiguas de una oracin a partir o o de la informacin almacenada en el estado de la red. Aunque el uso de una o RNR en esta tarea no es del todo nueva (Marques y Lopes 1996), s que es la primera vez que el problema se formula como un problema de prediccin o y se utiliza un corpus solo parcialmente etiquetado. Schmid (1994) utiliza un perceptrn sin capa oculta para etiquetar textos o en ingls. Las entradas a la red son una codicacin de la palabra actual, e o
80
las p anteriores y las f siguientes (en total p + f + 1 palabras). La red se entrena para dar como salida la categor de la palabra actual. Cada palabra a se representa mediante un vector en el que el componente j-simo es la e probabilidad de la j-sima categor lxica dada la palabra en cuestin (estas e a e o probabilidades se obtienen mediante maxima verosimilitud, contando sobre un texto completamente etiquetado). En el caso especial de las p palabras precedentes, la codicacin es una combinacin lineal de ese vector y la o o salida dada por la red para la palabra correspondiente. El etiquetador usa un diccionario y un rbol de sujos (un adivinador que determina la categor a a de las palabras que no estn en el diccionario). El entrenamiento consta, e en total, de 4 000 000 iteraciones sobre un corpus de 1 000 000 palabras. Los resultados se muestran para el caso p = 3 y f = 2, aunque el autor indica que los resultados son muy similares cuando p = 2 y f = 1. El modelo neuronal obtiene un 2% de mejora sobre un MOM y resultados similares a los de un modelo de trigramas. Si se utiliza una capa oculta, los resultados son a veces ligeramente mejores y otras veces ligeramente peores, por lo que esta circunstancia no parece inuir mucho. Marques y Lopes (1996) siguen un enfoque muy parecido al anterior para el portugus, pero usan un conjunto de entrenamiento mucho ms pequeo: e a n un corpus completamente etiquetado de unas 3 400 palabras y entre 5 000 y 10 000 iteraciones de entrenamiento. Adems de un perceptrn con y sin a o capa oculta, utilizan una RRS. Como contexto usan p = 0 y f = 1. El nmero de categor lxicas consideradas es 35 y los mejores resultados se u as e obtienen con el perceptrn sin capa oculta. El art o culo, sin embargo, no muestra una comparacin con otros mtodos. o e Ma y Isahara (1997) utilizan tambin un enfoque similar al de Schmid e (1994), en este caso para el tailands, pero ampl el modelo neuronal e an y utilizan una combinacin de perceptrones con una capa oculta. Cada o perceptrn utiliza valores diferentes para el tamao del contexto (p y f ). Los o n resultados se combinan de dos maneras distintas: bien tomando la salida de la red con mayor tamao de contexto (p+f ) que proporciona una estimacin n o clara para una determinada categor (neurona con activacin superior a un a o umbral), o bien decidiendo la categor de la palabra solo cuando todas las a redes coinciden en una concreta. El conjunto de entrenamiento consta de 3 162 frases con 8 242 palabras ambiguas y el conjunto de categor lxicas as e tiene tamao 53. n En otro de sus art culos, Ma et al. (1999) consideran un modelo de un unico perceptrn con una capa oculta, pero la salida de la red es corre o gida mediante un conjunto de reglas de transformacin como las utilizadas o por Brill (1992). De esta manera la tasa de acierto del etiquetador mejora alrededor de un 1% sobre el modelo neuronal original. Se utiliza un perceptrn o
5.4. PREDICCION DE SENALES DE VOZ
81
con capa oculta entrenado mediante retropropagacin y la longitud del cono texto previo y posterior (p y f ) se selecciona dinmicamente (prioridad del a contexto ms largo). El tamao del corpus completamente etiquetado usado a n en el entrenamiento es mucho menor que el de Schmid (1994): 8 322 frases con 22 311 palabras ambiguas (nmero de etiquetas, 47). Los resultados son u ligeramente mejores que los del clasicador multineuronal de Ma y Isahara (1997). Como ya se ha indicado, aqu se estudia un nuevo enfoque para el proble ma de la desambiguacin de categorias lxicas. Es el primer trabajo de este o e tipo que utiliza una RNR y en el que la resolucin del problema se plantea o en terminos de prediccin.10 Nuestro enfoque guarda cierto parecido con el o enfoque estad stico (en concreto con el de tipo Baum y Welch), ya que solo se requiere un texto parcialmente etiquetado11 y, bajo ciertas condiciones, las salidas de la red se pueden interpretar como probabilidades.
5.4. Prediccin de se ales de voz o n

Existe un abanico enorme de tcnicas de prediccin de seales de voz, e o n aunque, como se indic en el apartado 1.2.4, las lineales son las ms usadas o a con diferencia por su equilibrio entre sencillez y eciencia. As suele utilizarse un ltro FIR o un ltro IIR (vase el apartado 3.1.4) , e entrenados mediante alguno de los mltiples algoritmos existentes (Oppenu heim y Schafer 1989; Proakis y Manolakis 1996). 5.4.1. Trabajos neuronales Las RNR aparentan ser una buena alternativa no lineal para la prediccin o de voz: la memoria resultante de la existencia de conexiones recurrentes y la capacidad de adaptarse a cambios en el entorno las hace, en principio, apropiadas para seales no estacionarias como la voz. n Los unicos trabajos sobre prediccin de seales de voz en tiempo real o n con RNR siguen la l nea del trabajo de Haykin y Li (1995), que disearon n una RNRC (vase el cap e tulo 3) para realizar la prediccin de seales de o n voz. La RNRC se usa en una sucesin en cascada de predictores no lineales o y lineales.
10 Como usamos corpus no etiquetados, la red se entrena para predecir la clase de ambig edad de la siguiente palabra y no para emitir la clase de ambigedad o la etiqueta u u correcta de la palabra actual (prediccin versus desambiguacin). o o 11 Aunque los trabajos neuronales citados anteriormente usaban corpus etiquetados a mano relativamente pequeos, el nuestro los evita por completo. n
82
Baltersee y Chambers (1998) comprobaron que el rendimiento de la RNRC es insuciente (comparable al de un ltro lineal) cuando se utiliza para su entrenamiento el descenso por el gradiente con RTRL y propusieron en su lugar el uso del FKED. Con este ultimo, obtuvieron mejoras de unos 2 dB sobre un ltro lineal. Debe sealarse, sin embargo, que los resultados n presentados en ambos art culos pertenecen al caso mejor : solo se realiza un unico experimento con parmetros ad hoc. a Como ya se vio, la RNRC se compone de varias RPR de primer orden que comparten los mismos valores de sus pesos y que estn conectadas de a tal manera que la salida de una de ellas es la entrada de la siguiente. La RNRC puede considerarse como un modelo diseado ad hoc (de hecho, no n existen otros trabajos que las usen). No hay, sin embargo, estudios sobre el rendimiento de RNR clsicas de propsito general al aplicarlas a la prea o diccin en l o nea de seales de voz. En esta tesis se compara los resultados n de Baltersee y Chambers (1998) con los nuevos resultados obtenidos para algunas RNR clsicas. La prediccin se realiza directamente sobre la seal a o n de voz sin preprocesar.
6. COMPRESION DE SECUENCIAS SIMBOLICAS
Este cap tulo estudia el uso de las RNR como modelo de probabilidad para un compresor aritmtico de texto en lenguaje natural. Como e aperitivo se estudia la compresin de secuencias ms sencillas, princio a palmente derivadas de mquinas de estados nitos. Las ideas bsicas de a a este cap tulo se han publicado en las actas de un congreso internacional (Prez-Ortiz et al. 2001b) y en una revista internacional (Prez-Ortiz e e et al. 2001c).
La introduccin a los conceptos de este cap o tulo puede encontrarse en los apartados 1.2.1 y 5.1.
6.1. Mtodo e
Se trata de estudiar la idoneidad de las RNR como modelo de probabilidad del siguiente s mbolo de una secuencia procesada en l nea, es decir, se ha de proporcionar una salida inmediata ante cada nuevo s mbolo procesado sin posibilidad de reconsiderar la subsecuencia ya contemplada. La existencia de un modelo correcto de este tipo se puede utilizar para comprimir las secuencias por medio de, por ejemplo, un compresor aritmtico. De e hecho, puede considerarse de forma equivalente que los experimentos intentan evaluar la capacidad predictiva en l nea de las RNR y que la compresin o aritmtica se usa unicamente para evaluar la calidad del predictor, ya que e cuanto mejor es la prediccin, mejor es la razn de compresin obtenida. o o o Podr alegarse, por tanto, que el habitual error cuadrtico medio es una a a medida ms sencilla e igualmente util para evaluar la calidad del predictor. a Sin embargo, esta medida solo es aplicable en el caso de que conozcamos las probabilidades reales de los posibles siguientes s mbolos de la secuencia. En el caso de que estas probabilidades no sean conocidas (como ocurre, por ejemplo, con las secuencias textuales), el error solo puede basarse en la diferencia entre el s mbolo predicho (normalmente aquel con mayor probabilidad) y el observado en el siguiente instante de tiempo. Es necesaria, por tanto, una forma de error alternativa que considere el vector completo 83
84
de probabilidades estimadas: la compresin aritmtica es una solucin adeo e o cuada. En denitiva, la codicacin aritmtica es una alternativa emp o e rica para medir la calidad de un predictor (neuronal o no) cuando no se pueden calcular los valores tericos. o Como modelo de probabilidad de referencia para un compresor aritmtico e usaremos el programa de Nelson (1991) con un modelo combinado de [0, 4]gramas. 6.1.1. Secuencias de estados nitos A modo de aperitivo, consideraremos unas secuencias de estructura ms a sencilla que las de texto. Estas secuencias se basan principalmente en mquinas de estados nitos y es previsible obtener buenos resultados con a ellas, ya que se ha demostrado que las RNR son capaces de aprender fuera de l nea lenguajes regulares (Cleeremans et al. 1989) e incluso emular mquinas de estados nitos (Carrasco et al. 2000). a Las secuencias de estados nitos se derivan de lo que llamaremos fuentes secuenciales de estados nitos (FSEF), que pueden denirse como una qu ntupla M = (, Q, qI , , P ), donde = 1 , . . . , || es el alfabeto de entrada. Q = q1 , . . . , q|Q| es un conjunto nito no vac de estados. o qI es el estado inicial, qI Q. es la funcin de transicin de estado, : Q Q. o o P es un conjunto de probabilidades de transicin de estados de la o forma p(qj , i ), que indica la probabilidad de que el estado qj Q emita el s mbolo i y se realice una transicin al estado (qj , i ). o Ntese que para todo qj se tiene que i p(qj , i ) = 1. o Una fuente secuencial de estados nitos (FSEF) puede considerarse como un autmata nito determinista (Hopcroft y Ullman 1979) en el que cada o transicin tiene una probabilidad, no existen estados de aceptacin y la o o longitud de las secuencias generadas puede ser arbitrariamente larga.1 La gura 6.1 muestra la FSEF 1, una FSEF sencilla que se usar en los a experimentos. Un buen predictor para las secuencias generadas a partir de
Para ello debemos exigir que no existan en la fuente estados de absorcin, pero esto o viene forzado por la propia denicin, que obliga a que la suma de las probabilidades del o siguiente s mbolo para un estado determinado sea uno.
1
6.1. METODO
85
Figura 6.1: Diagrama de transiciones de la FSEF 1. El s mbolo inicial aparece etiquetado como qI . Todas las transiciones que parten de un mismo estado son equiprobables.
esta fuente debe tener una pequea memoria a corto plazo para predecir n correctamente el s mbolo que sigue a X. La gura 6.2 muestra la FSEF 2 basada en el autmata de Reber (Smith o y Zipser 1989), al que se ha aadido una conexin recurrente que permita n o generar secuencias de longitud indeterminada.2 La FSEF 3, una versin continua del autmata de Reber simtrico (Smith o o e y Zipser 1989), se muestra en la gura 6.4. Esta FSEF presenta dependencias a largo plazo (provocadas por los s mbolos P o T ), aunque estas apenas se maniestan durante una secuencia. 6.1.2. Secuencias caticas o Las fuentes secuenciales anteriores se basaban en la existencia de un estado representado por el conjunto Q. La fuente se encuentra en cada instante de tiempo en un determinado estado y a partir de l puede determinarse en e cierta medida su evolucin inminente. En esta seccin se discute una fuente o o secuencial no basada en estados nitos: una fuente catica. o Un sistema dinmico (siempre no lineal) se considera catico 3 si presenta a o un comportamiento aperidico (esto es, resultado de oscilaciones que no o se repiten nunca, de periodo innito) resultado de un modelo totalmente
2 En adelante se usar en ocasiones el nombre del autmata nito subyacente para a o referirse a la FSEF obtenida a partir de l. e 3 Para una buena introduccin a la teor del caos y para la denicin de los trminos o a o e utilizados en los siguientes prrafos puede consultarse el libro de Mart et al. (1995) o el a n de Hilborn (2000).
86
Figura 6.2: Diagrama para la FSEF 2 basada en el autmata de Reber. Todas las o transiciones que parten de un mismo estado son equiprobables. Las transiciones no mostradas en el diagrama tienen probabilidad nula.
Figura 6.3: Diagrama de transiciones para el autmata de Reber estndar. o a
determinista y que presenta gran sensibilidad a las condiciones iniciales. La sensibilidad a las condiciones iniciales implica que existe una divergencia exponencial de trayectorias inicialmente muy prximas en el espacio de fases, o fenmeno que se conoce como estiramiento. Otra propiedad existente sobre o el espacio de fases y opuesta al estiramiento es el plegamiento, que conlleva que dos trayectorias muy lejanas pueden eventualmente acercarse.
6.1. METODO
87
Figura 6.4: Diagramas de transiciones para la FSEF 3, obtenida a partir del autmata de Reber de la gura 6.3. Todas las transiciones que parten de un mismo o estado son equiprobables. Las transiciones no mostradas en el diagrama tienen probabilidad nula. La l nea inferior indica la variante continua; la discontinua se conoce normalmente como autmata de Reber simtrico. o e
Si representamos la trayectoria de un punto inicial bajo un sistema dinmico catico, veremos que las dos fuerzas anteriores entran en accin a o o de forma que se genera una estructura connada en una regin del espacio o de fases que se conoce como atractor extrao. Las trayectorias del espacio n de fases nunca se cortan entre s pues esto supondr un comportamiento , a peridico. Antes del descubrimiento del caos, los ciclos l o mite eran los atractores ms complejos que se conoc a an. Hoy d se puede decir que cada tipo a de sistema catico lleva asociado atractores de caracter o sticas peculiares. Las particularidades del atractor extrao lo convierten en un posible n generador de secuencias caticas. Para que estas secuencias sean simblicas o o debe realizarse una divisin en regiones del espacio de fases, de forma que o se asocie un s mbolo a cada una de ellas. En los experimentos consideraremos una secuencia obtenida de la evolucin de la actividad de un lser real en regimen catico (Weigend y Gersheno a o feld 1994), convertida en simblica siguiendo el mismo procedimiento que o Tio et al. (2000), mostrado a continuacin. n o El laser catico produce subsecuencias relativamente predecibles seguidas o por subsecuencias de alta impredicibilidad que requieren una memoria mayor (Tio et al. 2000). La secuencia numrica de activaciones del lser y[t] se n e a convierte en una secuencia simblica s[t] sobre el alfabeto = {a, b, c, d} o
&
! " ! " $ # # $ %
88
mediante la transformacin: o a b s[t] = c d 0 y[t] < 2 2 y[t] 1 y[t] < 0 y[t] < 1
(6.1)
donde y[t] = y[t] y[t 1] y los parmetros 1 y 2 se hacen correspona der con los percentiles del 10% y del 90%, respectivamente, obtenidos por adelantado sobre la secuencia de activaciones del lser. a 6.1.3. Textos La dinmica de los textos en lenguaje humano es complicada. Puede a considerarse un texto en lenguaje humano como una secuencia sobre un alfabeto nito formado, en el caso de alfabetos occidentales, por las letras maysculas, las letras minsculas, los d u u gitos y los signos de puntuacin, o entre otros. Esto hace que el tamao del alfabeto sea demasiado grande n para algunos experimentos concretos, por lo que a veces los textos reales se transforman en versiones simplicadas de los mismos, prescindiendo de los signos de puntuacin o convirtiendo todas las minsculas a maysculas, por o u u ejemplo. Nosotros consideraremos algunos textos en ingls pertenecientes a un e conjunto de ensayos sobre la obra del director de cine polaco Krzysztof Kieslowski.4 Los textos reales se convirtieron en textos sintticos sobre un e alfabeto ms reducido de || = 27 s a mbolos ignorando los d gitos y signos de puntuacin y convirtiendo todos los caracteres alfabticos a maysculas sin o e u acentuar. De esta manera los textos estn formados unicamente por letras a maysculas y espacios en blanco. u
6.2. Parmetros a
Los resultados que se muestran ms adelante ilustran la razn de coma o presin (RC) en funcin del nmero de neuronas de estado, nX . Se us o o u o codicacin exclusiva para los s o mbolos; los valores de nU y nY dependen, por tanto, del tamao del alfabeto correspondiente. Los modelos de RNR n son la RRS y la RPR, entrenados tanto con descenso por el gradiente como con el FKED con las derivadas calculadas segn RTRL. Ntese que en los u o experimentos nX = 0 signica que no hay neuronas de estado; en el caso de la RRS esto implica, adems, que solo se ajustan los sesgos de las neuronas a de salida.
4
Estos textos se encuentran en http://www.petey.com/kk/.
6.3. RESULTADOS
89
La tasa de aprendizaje del descenso por el gradiente es = 0.9 y el momento es = 0.4, valores que fueron escogidos tras experimentos preliminares. En el caso del FKED se tomaron los siguientes valores de los parmetros del algoritmo: a Q[t] : 102 106 R[t] : 100 3 P [0] = 100I Los resultados neuronales mostrados son la media aritmtica de 7 experie mentos distintos sobre cada secuencia; la varianza es muy pequea en todos n los casos y no se mostrar. Los valores iniciales de los pesos se tomaron de a una distribucin uniforme en [0.2, 0.2]. Consideraremos los tres tipos de o secuencias comentados anteriormente: secuencias generadas por mquinas a de estados nitos, secuencias caticas y textos en lenguaje humano. o Tambin se realizaron experimentos con la RTR y la red NARX; como e las RC obtenidas son similares, bien a las de la RRS, bien a las de la RPR (dependiendo de la secuencia y de los parmetros concretos considerados), a omitir los resultados de aquellas. e
T =1000 T =1000
6.3. Resultados
6.3.1. Secuencias de estados nitos El cuadro 6.1 muestra los resultados obtenidos con gzip, bzip2 y el compresor aritmtico de Nelson (1991) con [0, 4]-gramas para secuencias de e longitud 20 000 derivadas de las FSEF comentadas anteriormente. Ya que tenemos las mquinas generadoras de estas secuencias, podemos tambin a e utilizar el compresor aritmtico con el modelo exacto de probabilidad. Dee bido a las propiedades de la codicacin aritmtica, esto dar la mejor RC o e a posible. Los resultados de este modelo se muestran en el cuadro 6.1 en la la etiquetada como aritmtico exacto. e Las guras 6.5 a 6.7 muestran los resultados obtenidos por la RRS y la RPR. Como se puede ver, el nmero de neuronas de estado afecta a la u RC obtenida, aunque para valores de nX 10 esta inuencia no es muy signicativa. Ambos modelos, RRS y RPR, dan resultados comparables. El FKED proporciona RC cercanas a las del modelo de [0, 4]-gramas (que, a su vez, son cercanas a las del compresor exacto), mientras que las del descenso por el gradiente son inferiores.
90
Aritmtico exacto e [0, 4]-gramas gzip bzip2
FSEF 1 11.93 11.29 6.10 8.89
FSEF 2 3.99 3.83 2.27 3.34
FSEF 3 5.10 4.23 2.46 3.63
Cuadro 6.1: Razones de compresin obtenidas para las FSEF con compresores no o neuronales.
12
10
8 RC
2 0 2 4 nX 10 16
Figura 6.5: Razones de compresin para la secuencia derivada de la FSEF 1. Se o muestran los resultados con RPR y descenso por el gradiente ( ), RRS y descenso por el gradiente (), RPR y FKED ( ), y RRS y FKED (). La l nea constante es la razn de compresin del modelo de [0, 4]-gramas, indicada tambin en el o o e cuadro 6.1.
Aunque no se mostrar aqu es posible encontrar para cada secuencia y a , modelo particular un conjunto de valores de los parmetros ajustables que a acercan an ms las RC neuronales a las del modelo exacto. u a 6.3.2. Secuencias caticas o Los resultados para la secuencia del lser catico de longitud 10 000 con a o las RNR se muestran en la gura 6.8. El modelo de [0, 4]-gramas da una RC de 2.73 para esta secuencia. Evidentemente, en este caso no cabe hablar de un modelo de probabilidad exacto. Al usar descenso por el gradiente, las diferencias entre la RRS y la RPR son mayores que antes. De nuevo, el FKED supera con creces los resultados del descenso por el gradiente. En cualquier caso, la RPR entrenada con este
6.3. RESULTADOS
91
3 RC 2 1 0 2 4 nX 10 16
4.5 4
3 RC 2 1 0 2 4 nX 10 16
algoritmo da RC (con nX > 4) similares a las del modelo de [0, 4]-gramas, y el FKED (independientemente del modelo neuronal) consigue razones mucho mayores (cercanas a 4).
92
3 RC 2 1 0 2 4 nX 10 16
Figura 6.8: Razones de compresin para la secuencia del lser catico. Se mueso a o tran los resultados con RPR y descenso por el gradiente ( ), RRS y descenso por el gradiente (), RPR y FKED ( ), y RRS y FKED (). La l nea constante es la razn de compresin del modelo de [0, 4]-gramas. o o
[0, 4]-gramas gzip bzip2
decalog1 1.74 1.53 1.71
kiesdis3 1.75 1.58 1.72
vidwchdg 1.85 1.60 1.83
Cuadro 6.2: Razones de compresin para las secuencias de texto con compresores o no neuronales.
6.3.3. Textos en lenguaje humano Ahora aplicaremos la misma estrategia que en los apartados anteriores para estudiar la inuencia del algoritmo de aprendizaje y del nmero de u estados en las razones de compresin obtenidas para tres textos en ingls. o e El cuadro 6.2 muestra las RC con gzip, bzip2 y el modelo de [0, 4]-gramas. Obviamente, tampoco existe ningn modelo de probabilidad exacto en esu te caso. El nmero de s u mbolos de cada secuencia es: decalog1, 19 385; kiesdis3, 18 666; y vidwchdg, 62 648. Las guras 6.9 a 6.11 (prcticamente idnticas) muestran las RC obtea e nidas por las RNR para las tres secuencias de texto consideradas. Puede observarse fcilmente que ambos modelos tienen problemas para aprender a las estad sticas de las secuencias: el valor de nX no tiene una inuencia clara en la RC obtenida con la RPR. En el caso de una RPR, esto implica que la red est desarrollando una especie de modelo de bigramas: solo el a
6.4. DISCUSION
93
RC
1.5
1 0 2 4 nX 10 16
Figura 6.9: Razones de compresin para la secuencia en ingls decalog1. Se o e muestran los resultados con RPR y descenso por el gradiente ( ), RRS y descenso por el gradiente (), RPR y FKED ( ), y RRS y FKED (). La l nea constante es la razn de compresin del modelo de [0, 4]-gramas, indicada tambin en el o o e cuadro 6.2.
s mbolo actual se considera al predecir el siguiente. La RRS, por otro lado, usa sus neuronas de estado, ya que a valores mayores de nX las RC son tambin mayores, pero los resultados son peores que los de la RPR. Debe e destacarse, no obstante, que los resultados obtenidos con las otras tcnicas e son solo ligeramente mejores. El FKED, por otra parte, explota positivamente (al menos parcialmente) el nmero de neuronas de estado. A pesar de estos resultados ligeramente u mejores (en consonancia con lo comprobado hasta ahora para este algoritmo), las RC son todav mucho menores que las obtenidas con el modelo de a n-gramas.
6.4. Discusin o
El algoritmo de entrenamiento del FKED supera al de descenso por el gradiente cuando se trata de predecir en l nea los s mbolos de una secuencia simblica. En el caso de las secuencias de estados nitos, los resultados o del FKED son comparables a los obtenidos con n-gramas y estn cerca del a ptimo. Al procesar la secuencia catica, incluso los resultados del descenso o o por el gradiente son similares a los del modelo de [0, 4]-gramas y el FKED los supera notablemente. Sin embargo, al trabajar con secuencias en lenguaje humano, los resultados del FKED son mucho peores que los de un modelo
94
RC
1.5
1 0 2 4 nX 10 16
Figura 6.10: Razones de compresin para la secuencia en ingls kiesdis3. Se o e muestran los resultados con RPR y descenso por el gradiente ( ), RRS y descenso por el gradiente (), RPR y FKED ( ), y RRS y FKED (). La l nea constante es la razn de compresin del modelo de [0, 4]-gramas, indicada tambin en el o o e cuadro 6.2.
RC
1.5
1 0 2 4 nX 10 16
Figura 6.11: Razones de compresin para la secuencia en ingls vidwchdg. Se o e muestran los resultados con RPR y descenso por el gradiente ( ), RRS y descenso por el gradiente (), RPR y FKED ( ), y RRS y FKED (). La l nea constante es la razn de compresin del modelo de [0, 4]-gramas, indicada tambin en el o o e cuadro 6.2.
de [0, 4]-gramas. La prediccin sobre textos en lenguaje humano parece ser o una tarea dif para ambos algoritmos. cil
6.4. DISCUSION
95
Debe tenerse en cuenta, sin embargo, que el nmero de parmetros de u a un modelo combinado de n-gramas como el utilizado en el compresor de Nelson (donde n = 4, 3, 2, 1, 0) es muy superior al de las RNR utilizadas en este trabajo. El nmero terico mximo de parmetros de un modelo de nu o a a n donde es el alfabeto de las secuencias sobre las que trabaja gramas es || el predictor.5 La RRS utilizada en los experimentos, por ejemplo, tiene un nmero de pesos igual a (|| nX )2 + n2 + nX + ||; a este nmero de parau u X metros habr que aadirle los utilizados por el algoritmo de entrenamiento a n correspondiente. Puede armarse, en denitiva, que el FKED supera al descenso por el gradiente cuando se trata de predecir los s mbolos de una secuencia simblica. El FKED, sin embargo, tiene una complejidad temporal supeo rior a la del descenso por el gradiente. La dinmica de los textos reales, en a cualquier caso, parece ser demasiado compleja para ser aprendida en l nea correctamente por una RNR. Finalmente, debe tenerse en cuenta que los experimentos realizados con las mquinas de estados nitos no permiten detectar si la RNR ha aprendido a completamente las mquinas correspondientes. Por ejemplo, la FSEF 3 a presenta dependencias a largo plazo, como veremos en el cap tulo siguiente, que se maniestan relativamente de tarde en tarde. Estas dependencias no suelen ser aprendidas adecuadamente por las RNR consideradas en este cap tulo, pero debido a su aparicin ocasional, este hecho apenas aparecer o a reejado en las RC obtenidas. Alternativas de prediccin de textos. En todos los experimentos con o textos en lenguaje natural realizados con RNR en este cap tulo, el valor 1.5 parece ser una cota superior de las RC obtenibles (vase las guras 6.9 e a 6.11). Aunque es necesario un estudio ms profundo de los motivos de a este comportamiento, los resultados apuntan a que la RNR no es capaz de desarrollar un modelo adecuado de los contextos de la secuencia similar al que desarrolla un modelo de [0, 4]-gramas. Sin embargo, el rendimiento de las RNR no es tan malo si se compara con otros modelos como el que veremos a continuacin. o Forcada (2001) ha estudiado la construccin de autmatas estocsticos o o a de estados nitos para implementar un sistema de prediccin textual similar o al que incorporan los telfonos mviles actuales a la hora de escribir un e o mensaje. Aunque sus resultados son para el cataln, lo cierto es que la razn a o
5 A la hora de una implementacin real, el espacio requerido es inferior a ||n , ya que o muchos de los parmetros nunca se alteran y conservan su valor inicial. Es posible, por a tanto, encontrar formas ecientes de almacenar estos parmetros, por ejemplo, utilizando a rboles (Nelson 1991). A n as el nmero de parmetros utilizados es con diferencia a u u a superior al de las RNR utilizadas en los experimentos.
96
de compresin obtenida por estos sistemas es muy similar a la obtenida en o este cap tulo para RNR. En efecto, Forcada (2001) considera un alfabeto de aproximadamente 40 s mbolos y un teclado de 10 teclas. Si no se utiliza prediccin de ningn o u tipo, el nmero de bits por s u mbolo al codicar un mensaje ser log2 40 = a 5.32. Si se considera un predictor, en lugar de enviar los distintos s mbolos codicados, se puede considerar enviar la secuencia de teclas pulsadas por el usuario para escribir el mensaje. Pues bien, Forcada (2001, cuadro 3) asegura que el nmero medio de u pulsaciones por s mbolo realizadas al utilizar una estrategia predictiva es 1.11. Como la codicacin de cada una de las 10 teclas requiere log2 10 = o 3.32, el nmero medio de bits por s u mbolo al codicar un mensaje ser a 1.11 3.32 = 3.67. Luego la RC ser de: a 5.32 = 1.45 3.67 Este resultado se aproxima bastante a los obtenidos por las RNR en los experimentos de este cap tulo.
7. INFERENCIA DE LENGUAJES CON DEPENDENCIAS A LARGO PLAZO
En este cap tulo se estudia la inferencia en l nea de un lenguaje regular y la inferencia fuera de l nea de un lenguaje sensible al contexto, ambas planteadas como un problema de prediccin. Los dos lenguajes preseno tan marcadas dependencias a largo plazo por lo que no suelen ser bien aprendidos por las RNR tradicionales. Los resultados de estas se comparan con los de la red LSTM, tericamente adecuada para manejar o este tipo de dependencias. Los contenidos de este cap tulo, publicados en varios congresos internacionales (Gers et al. 2002b; Prez-Ortiz e et al. 2002b; Gers et al. 2002a) y aceptados con modicaciones en una revista internacional (Prez-Ortiz et al. 2002a), muestran el primer uso e de LSTM en tareas de prediccin en l o nea, as como la primera ocasin o en que el FKED se aplica a este modelo.
Los experimentos de inferencia desarrollados en este cap tulo pueden dividirse en dos grupos: relativos a la inferencia en l nea de un lenguaje regular derivado del autmata de Reber simtrico (Smith y Zipser 1989) o e y relativos a la inferencia fuera de l nea del lenguaje sensible al contexto an bn cn . Por ello, cada uno de los siguientes apartados aparece dividido en estos dos bloques. Como introduccin a los contenidos de este cap o tulo, puede consultarse las secciones 1.2.2 y 5.2.
7.1. Mtodo e
Aprendizaje del lenguaje de Reber En este experimento, se usa principalmente LSTM con compuertas de olvido, pero sin conexiones de mirilla (vase el cap e tulo 3), para predecir el siguiente s mbolo sobre una secuencia simblica continua con dependencias o a largo plazo. Tambin se muestran los resultados obtenidos con RNR trae dicionales. El nfasis se pone en el procesamiento en l e nea puro, es decir, los 97
98
pesos se actualizan s mbolo a s mbolo y la secuencia de entrada es unica y no est dividida en subsecuencias claramente demarcadas. a Gers et al. (2000) estudian un problema similar, pero abordado desde un punto de vista prximo a lo que hemos llamado en el apartado 4.1.1 apreno dizaje en l nea por secuencias. En sus experimentos, los pesos se actualizan tras la presentacin de cada s o mbolo: una estrategia propia del aprendizaje en l nea puro. Sin embargo, la secuencia actual de entrada se rechaza tan pronto como la red comete un error sobre ella; a continuacin, la red se o inicializa y el procesamiento contina con una nueva secuencia: esta forma u de presentar la informacin a la red es ms propia del aprendizaje fuera de o a l nea. Adems, la red se evala con los pesos congelados. El enfoque adoptaa u do en su trabajo puede considerarse, por tanto, a medio camino entre ambos tipos de aprendizaje. Aqu aplicaremos la red LSTM y la RRS al mismo tipo de secuencias, pero con un enfoque en l nea puro: existe un unico ujo de entrada, el aprendizaje contina aunque la red cometa errores, y el entrenamiento y la u evaluacin no estn divididos en fases separadas. En el aprendizaje en l o a nea puro, es importante que la red sea capaz de desarrollar un modelo sin poder apoyarse en las inicializaciones que permiten arrancar las redes desde un determinado punto jo. Podemos decir que este tipo de entrenamiento es en ca libre, ya que carece siquiera de este m da nimo punto de apoyo. Por otro lado, en el trabajo de Gers et al. (2000) solo se utilizaba el algoritmo de descenso por el gradiente. Aqu se aplicar el FKED por primera a vez al modelo LSTM. La secuencia de entrada se genera a partir de la variante continua del autmata de Reber simtrico (FSEF 3), que se muestra en la gura 6.4. o e Como se aprecia en la gura, las dependencias a largo plazo aparecen porque, en ocasiones, determinar si el siguiente s mbolo de la secuencia es P o T exige considerar la historia antigua de la secuencia. Contaremos el nmero de s u mbolos que necesita la red LSTM para generar predicciones sin error durante al menos 1000 s mbolos, nmero que u representaremos mediante 1000 ; aqu sin error quiere decir que el s mbolo correspondiente a la neurona ganadora sea uno de los s mbolos para los que existe una transicin desde el estado actual del autmata de Reber simtrico. o o e Por otro lado, al aprender en l nea, la presencia recurrente de determinadas subsecuencias hace que la red olvide la historia pasada y conf en e las observaciones ms recientes.1 Por ello, tras un periodo de entrenamiento a
De hecho, esto es lo que uno esperar de un modelo que es capaz de actuar correctaa mente bajo entornos no estacionarios.
1
7.1. METODO
99
inicial es habitual que las RNR (LSTM en especial) cometan algunos errores aislados, tras lo que siguen realizando predicciones correctas. Para tener una medida ms tolerante de la calidad predictiva del sistema, medimos tambin a e el momento en el que se produce el error n-simo tras las 1000 primeras pree dicciones sucesivas sin error: consideraremos dos valores para n, a saber, 1 1 10 y 10, que representaremos mediante 1000 y 1000 , respectivamente. Aprendizaje de an bn cn En este experimento utilizaremos la red LSTM con compuertas de olvido y conexiones de mirilla2 para aprender y generalizar el lenguaje sensible al contexto an bn cn . Como se comentar ms adelante, el modo de entrenaa a miento ser en l a nea por secuencias o fuera de l nea por secuencias, segn el u algoritmo de entrenamiento concreto utilizado. La red observar secuencialmente, s a mbolo a s mbolo, muestras positivas del lenguaje. El objetivo en cada iteracin es predecir los posibles s o mbolos siguientes, incluido el s mbolo de n de cadena $, que es tambin un s e mbolo especial de arranque con el que comienzan todas las secuencias.3 Cuando es posible ms de un s a mbolo en el siguiente paso, todos ellos deben ser predichos adecuadamente y ninguno de los otros. Por ejemplo, en el caso de n = 3, las entradas y salidas deseadas ser an: Entrada: Salida deseada: S a/$ a a/b a a/b a a/b b b b b b c c c c c c $
Una secuencia es aceptada si todas las predicciones realizadas sobre ella son correctas y rechazada en caso contrario. Diremos que el sistema ha aprendido el lenguaje hasta las secuencias de longitud L, si es capaz de predecir todas las secuencias con tamao menor o igual que L. n En cuanto al entrenamiento y la evaluacin, ambos se turnan: cada 1000 o secuencias de entrenamiento, los pesos de la red se congelan y se procede a la evaluacin. Los conjuntos de aprendizaje y evaluacin incorporan todas o o las secuencias vlidas (solo muestras positivas) con longitud menor o igual a a 3n. El entrenamiento termina cuando en un turno o poca se aceptan e todas las cadenas del conjunto de entrenamiento. Los resultados mostrados son la media aritmtica de los obtenidos con 10 redes entrenadas indepene dientemente con diferentes inicializaciones de los pesos (las mismas para cada experimento). Llamaremos conjunto de generalizacin al conjunto de o evaluacin ms grande que es aceptado por la red. o a
Esta tarea no puede aprenderse sin las conexiones de mirilla. Ntese que $ no es un separador, sino un nalizador de secuencias, ya que los modos o de entrenamiento empleados reinician la red tras cada secuencia.
3 2
100
Estudiaremos el comportamiento de la red LSTM con dos tipos de conjuntos de entrenamiento para an bn cn : 1. con n [1, N ], 2. con n [N 1, N ]. Para valores grandes de N , el segundo caso es ms dif a cil, ya que no existe el apoyo de las secuencias ms cortas, que son ms fciles de aprender al a a a atenuar las dependencias a largo plazo. Aqu nos centraremos en n [1, 10] y n [20, 21].
7.2. Parmetros a
Aprendizaje del lenguaje de Reber Siguiendo lo propuesto por Gers et al. (2000), la red LSTM tiene nM = 4 bloques de memoria con nC = 2 celdas cada uno. Como usamos codicacin o exclusiva para los s mbolos y como el tamao del alfabeto del autmata de n o Reber es || = 7, consideramos una red LSTM con nU = nY = 7. Los sesgos de las compuertas de entrada W y de salida W se inicializan por bloques: 0.5 para el primer bloque, 1 para el segundo, 1.5 para el tercero, etc.4 Los sesgos de las compuertas de olvido W se inicializan con valores simtricos: 0.5 para el primer bloque, 1 para el segundo, etc. El resto e de los pesos de la red se inicializan de forma aleatoria segn una distribucin u o uniforme en [0.2, 0.2]. Como existen conexiones directas entre las entradas y las unidades de salida, la red LSTM se puede considerar una mquina neuronal de estados a de Mealy. La funcin de activacin gZ se toma como gZ (x) = gT (x) = tanh(x); o o gM (x) es la funcin identidad; y la funcin de activacin de las compuertas o o o es la funcin log o stica gC (x) = gL (x). Los algoritmos de entrenamiento considerados son el descenso por el gradiente y el FKED. Las derivadas se calculan segn RTRL en el caso de la u RRS y segn lo indicado en 4.12.1 para la red LSTM. En el caso del descenso u por el gradiente, la tasa de aprendizaje es = 0.5 y el momento es = 0. En el caso del FKED, los valores para los parmetros libres del algoritmo a son: Q[t] : 102 106
4 T =8000
Vase el apartado 3.2 para una discusin sobre esta inicializacin. e o o
7.2. PARAMETROS
101
R[t] : 100 3 P [0] = 100I Los valores anteriores proporcionaron buenos resultados en experimentos preliminares. Para comparar los resultados de LSTM con los de una RNR tradicional se considera una RRS con un nmero de parmetros muy similar a los del u a modelo LSTM: 364 parmetros ajustables tomando nX = 13. Las funciones a de activacin gY y gX son la funcin log o o stica gL (x) y los parmetros de a entrenamiento los mismos que los indicados arriba para la red LSTM. Aprendizaje de an bn cn Siguiendo a Gers y Schmidhuber (2001), consideramos una red LSTM congurada como una mquina neuronal de estados de Mealy con nM = a 2 bloques de memoria con nC = 1 celda cada uno.5 Los sesgos de las compuertas de entrada, olvido y salida (W , W y W , respectivamente) se inicializan a 1.0, +2.0 y 2.0, respectivamente (aunque los valores exactos de esta inicializacin no son muy cr o ticos). El resto de pesos se inicializan aleatoriamente segn una distribucin uniforme en [0.1, 0.1]. Las funciones u o de activacin gZ y gM son la funcin identidad. La funcin de activacin o o o o de las neuronas de salida es una funcin log o stica con rango (2, 2), esto es, gY (x) = 4gL (x) 2. Los s mbolos se codican mediante codicacin exclusiva, con la salvedad o de que en lugar de vectores unitarios se consideran vectores cuyos componentes son +1 o 1 para ampliar el rango. Como tenemos los tres s mbolos a, b, c y el marcador especial, queda nU = nY = 4. Con +1 se indica que un determinado s mbolo est activado y con 1 que no lo est; la frontera a a de decisin para la salida de la red es 0. o En el caso del algoritmo de descenso por el gradiente, los pesos se actualizan fuera de l nea tras cada secuencia. Se consideran dos formas de descenso por el gradiente: con un momento (Plaut et al. 1986) de valor = 0.99 o sin l. Los resultados se muestran para diversos valores de la tasa de aprene dizaje . Como mximo se presentan 107 secuencias de entrenamiento y se a evala con secuencias de longitud mxima menor que 1500 (n 500). u a En el caso del FKED se utiliza un entrenamiento tambin por secuencias, e pero esta vez en l nea. Los parmetros utilizados en el FKED son para el a caso n [1, 10]:
Esto hace que el nmero total de pesos a ajustar sea 84 (72 conexiones entre unidades u y 12 sesgos).
5
T =8000
102
Q[t] : 5 103 R[t] : 100 1 y para el caso n [20, 21]: Q[t] : 5 103 106 R[t] : 100 1 Los valores anteriores proporcionaron buenos resultados en experimentos preliminares, pero no son cr ticos en el sentido de que hay un amplio rango de valores que resultan en un redimiento similar. La inuencia del otro parmetro, la matriz de covarianza del error inicial P [0], se estudiar ms a a a adelante. El mximo nmero de secuencias presentadas en el caso del FKED a u es 105 y la evaluacin se realiza con secuencias de longitud mxima menor o a o igual a 30 000 (n 10 000).
T =1000 T =1000 T =1000
7.3. Resultados
Aprendizaje del lenguaje de Reber Resultados con la red LSTM con descenso por el gradiente. El cuadro 7.1 muestra los resultados para 9 secuencias diferentes sobre 9 redes LSTM inicializadas independientemente y entrenadas con el algoritmo original de descenso por el gradiente. En uno de los casos (la 5), no se hallaron subsecuencias de prediccin correctas (para 1000 s o mbolos seguidos) tras los primeros 1 000 000 s mbolos; esto se indica en el cuadro mediante 1 000 000+ . Es de destacar que el nmero medio de s u mbolos necesarios para aprender a predecir sostenidamente con el mtodo en l e nea puro (miles de s mbolos) es mucho ms pequeo que los necesitados por Gers et al. (1999; 2000) (millones a n de s mbolos). Esto rearma la rapidez de aprendizaje del entrenamiento en l nea. Resultados de LSTM con el FKED. El rendimiento es mucho mejor con el FKED. El tiempo necesario para obtener 1000 predicciones seguidas sin error, 1000 , es generalmente inferior que el usado por el algoritmo original de entrenamiento basado en el descenso por el gradiente, lo que indica una convergencia ms rpida (comprese con el cuadro 7.2). Sin embargo, el a a a 10 nmero de s u mbolos procesados antes del dcimo error, 1000 , es tambin e e inferior, indicando una degradacin del rendimiento ms rpida. El FKED o a a parece incrementar la capacidad de aprendizaje en l nea a la vez que reduce
7.3. RESULTADOS
103
Red 1 2 3 4 5 6 7 8 9
1000 39229 102812 53730 54565 1000000+ 111483 197748 54629 85707
1 1000 143563 111442 104163 58936 113715 199445 123565 86742
10 1000 178229 144846 141801 75666 136038 235387 123595 92312
Cuadro 7.1: Iteraciones necesarias para que la red LSTM (entrenada en l nea con el algoritmo original de descenso por el gradiente) consiga 1000 predicciones correctas seguidas (prediccin sostenible). Tambin se muestra el nmero de iteraciones o e u antes de que aparezca un error y antes de que aparezcan 10 errores. La red nmero u 5 no mostr ninguna prediccin sostenible antes del s o o mbolo 1 000 000.
Red 1 2 3 4 5 6 7 8 9
1000 29304 19758 20487 26175 18015 16667 23277 1000000+ 29742
1 1000 30347 25488 22235 27542 19365 29826 24796 31535
10 1000 30953 322980 24106 33253 22241 1000000+ 26664 594117
Cuadro 7.2: Iteraciones necesarias para que LSTM (entrenada en l nea con el FKED) consiga 1000 predicciones seguidas correctas. Tambin se muestra el e nmero de iteraciones antes del siguiente error y de los siguientes 10 errores. La u red 8 no obtuvo una prediccin sostenible antes de 1 000 000 de s o mbolos. La la 6 muestra un resultado especialmente bueno: solo se producen 3 errores antes del s mbolo 1 000 000.
las capacidad de memoria a largo plazo de LSTM. Existen, no obstante, 3 casos destacables (las 2, 6 y 9 del cuadro 7.2), en los que hace falta una subsecuencia muy larga (cientos de miles de s mbolos) para que se produzca el dcimo error. e Resultados con la RRS. La RRS entrenada con descenso por el gradiente con RTRL no puede obtener predicciones sostenibles (1000 ), al menos despus de probar con distintas inicializaciones de los pesos y tras secuencias e
104
Red 1 2 3 4 5 6 7 8 9
1000 132827 115462 57363 265088 148496 357745 171768 58077 154269
1 1000 134035 117118 58989 266227 149894 359807 173997 59222 155443
10 1000 136155 120274 61403 289391 153442 363163 193946 65463 158609
Cuadro 7.3: Iteraciones necesarias para que la RRS con nX = 13 entrenada en l nea con el FKED consiga 1000 predicciones seguidas correctas. Tambin se e muestra el nmero de iteraciones antes del siguiente error y de los siguientes 10 u errores.
extremadamente largas de 106 s mbolos.6 Las dependencias a largo plazo son las culpables de este comportamiento, ya que desde muy pronto (a partir del s mbolo 3000 o 4000, aproximadamente) la RRS predice correctamente en todos los casos excepto cuando aparecen los s mbolos P y T del extremo derecho del autmata.7 o Incluso 100 predicciones correctas seguidas ocurr muy de tarde en an tarde, aunque, por otro lado, no es muy ilustrativo considerar valores como el de 100 , ya que hay una probabilidad no despreciable de que la prediccin o a largo plazo corresponda al mismo s mbolo durante este intervalo y la RNR acte correctamente aun ignorando esa dependencia. u El FKED aplicado a la RRS, sin embargo, s que permit predicciones a sostenibles sin error del tipo 1000 como puede observarse en el cuadro 7.3. En cualquier caso, hay un detalle importante que diferencia el aprendizaje realizado por la RRS del realizado por LSTM. Cuando la RRS realiza correctamente la prediccin de uno de los dos s o mbolos, P o T , afectado por dependencias a largo plazo, las probabilidades emitidas por la red para ambos estn en torno a 1/2 y el s a mbolo escogido es el correspondiente al de probabilidad mayor.8 El comportamiento de LSTM es distinto, como
El mismo comportamiento se observ con la RPR. o Este aprendizaje rpido de las dependencias a corto plazo se puede observar tambin a e en el caso de la red LSTM. 8 Esto signica que de haber impuesto una pol tica ms conservadora para el s a mbolo predicho por la RNR, la RRS con el FKED no habr podido realizar predicciones sostea nibles.
7 6
7.3. RESULTADOS
105
101 102 103 104 105 106 107
=0 Secuencias % aprendido [103 ] 0 0 68 100 351 100 3562 100 0 0
= 0.99 Secuencias % aprendido [103 ] 0 0 0 20 90 45 90 329 100 3036 100
Cuadro 7.4: Resultados con LSTM y descenso por el gradiente para an bn cn con conjuntos de entrenamiento con n [1, 10] y con distintas tasas de aprendizaje y valores del momento .
veremos, ya que la red sabe lo que viene despus y la probabilidad del e s mbolo predicho es muy superior a la del resto. Finalmente, analizando la subsecuencia correspondiente a una prediccin sostenible con la RRS, puede observarse que la red falla en cuanto la o separacin entre el evento que causa la dependencia a largo plazo y su mao nifestacin en la secuencia es ligeramente mayor que 10 (por ejemplo, 20); o en este caso las probabilidades ni siquiera estn en torno a 1/2. a Aprendizaje de an bn cn Resultados de LSTM con descenso por el gradiente. Cuando se usa el descenso por el gradiente, la red LSTM aprende las dos clases de conjuntos de entrenamiento y generaliza bien. Los datos relativos al aprendizaje del conjunto de entrenamiento se muestran en los cuadros 7.4 y 7.5 para distintos valores de la tasa de aprendizaje . En ellos se muestra el nmero medio u de secuencias necesarias hasta conseguir una fase de entrenamiento (1000 secuencias) sin errores y el porcentaje de experimentos en los que se logr. o En cuanto a la generalizacin, para el caso n [1, 10], la mejor generalizacin o o es n [1, 52] y la generalizacin media es n [1, 28]; por otro lado, para el o caso n [20, 21], la mejor generalizacin es n [10, 27] y la generalizacin o o media es n [17, 23]. La red LSTM funciona adecuadamente para un amplio rango de tasas de aprendizaje (unos tres rdenes de magnitud) como puede verse en los o cuadros 7.4 y 7.5. La utilizacin del momento ayuda claramente a mejorar o la velocidad de aprendizaje, adems de tolerar el mismo rango para . a
106
101 102 103 104 105 106 107
=0 Secuencias % aprendido [103 ] 0 0 1170 30 7450 30 1205 20 0 0
= 0.99 Secuencias % aprendido [103 ] 0 0 0 0 127 20 1506 20 1366 10
Cuadro 7.5: Resultados con LSTM y descenso por el gradiente para an bn cn con conjuntos de entrenamiento con n [20, 21] y con distintas tasas de aprendizaje y valores del momento . 103 102 101 1 10 102 103 Secuencias [103 ] 2 2 2 2 2 2 2 % aprendido 20 80 100 60 100 70 80 Generalizacin o media [1, 43] [1, 48] [1, 280] [1, 291] [1, 434] [1, 1082] [1, 865] Mejor generalizacin o [1, 68] [1, 77] [1, 1162] [1, 1385] [1, 2743] [1, 10000+ ] [1, 3796]
Cuadro 7.6: Resultados de LSTM con el FKED con n [1, 10] para distintos valores iniciales de la matriz de covarianza del error P [0] = I.
Resultados de LSTM con el FKED. Como puede comprobarse en los cuadros 7.6 y 7.7, los resultados del FKED mejoran notablemente los del algoritmo de descenso por el gradiente. Conjuntos de entrenamiento muy pequeos con valores de n [1, 10] llegan a ser sucientes para una generan lizacin perfecta hasta valores de n [1, 2000] y superiores: en concreto, en o uno de los experimentos con P [0] = 102 I se obtuvo un conjunto de generalizacin con n [1, 10000], el mximo evaluado. o a Ms an, en el caso de n [1, 10], el entrenamiento naliza normalmente a u tras solo 2000 secuencias de entrenamiento (un par de pocas), mientras que e el algoritmo original necesita un nmero mucho mayor de secuencias; algo u similar ocurre en el caso de n [20, 21]. Un problema menor del FKED es su inestabilidad ocasional: el aprendizaje ocurre al comienzo de la fase de entrenamiento o nunca. Todos los fallos en los cuadros 7.6 y 7.7 son debidos a esto. En general, sin embargo, cuando n [1, 10], el aprendizaje se produce extremadamente rpido y dejan de a
7.4. DISCUSION
107
103 102 101 1 10 102 103
Secuencias [103 ] 4 5 3 5 4 5
% aprendido 0 80 70 40 50 40 50
Generalizacin o media [17, 23] [14, 25] [14, 26] [12, 29] [12, 28] [13, 27]
Mejor generalizacin o [11, 24] [9, 27] [12, 28] [8, 34] [9, 32] [8, 32]
Cuadro 7.7: Resultados de LSTM con el FKED con n [20, 21] para distintos valores iniciales de la matriz de covarianza del error P [0] = I.
producirse fallos sobre el entrenamiento tras un nmero de secuencias entre u 200 y 400.
7.4. Discusin o
Aprendizaje del lenguaje de Reber Como ya hemos comentado, en el caso del aprendizaje simblico en l o nea, el FKED reduce signicativamente el nmero de iteraciones necesarias para u obtener predicciones sin error. Sin embargo, tiende a olvidar ms fcilmente. a a Anlisis de la solucin. El estudio de la evolucin de las activaciones de a o o las celdas y las compuertas de la red LSTM durante el aprendizaje en l nea de la secuencia de Reber, revela que el comportamiento de la red es muy similar al observado en anteriores experimentos que no eran completamente en l nea (Gers et al. 2000, apartado 4.4), esto es, un bloque de memoria se especializa en la informacin a largo plazo, mientras que los otros se centran o en las variaciones a corto plazo. Independientemente de lo anterior, todos los bloques aprenden a reinicializarse mediante la anulacin de la activacin o o de la compuerta de olvido correspondiente. Este comportamiento es comn u a ambos algoritmos de entrenamiento. Obsrvense las guras 7.1 y 7.2. En ellas se muestran las activaciones e t picas simultneas de dos de los bloques de memoria de la red durante 170 a s mbolos sucesivos tomados de una subsecuencia sin errores de prediccin. o La informacin de largo plazo aparece etiquetada con los s o mbolos (P o T ) que deben almacenarse hasta que la secuencia alcance el lado derecho de la mquina de estados nitos. a La gura 7.1 muestra las activaciones de los CEC y de la compuerta de olvido del tercer bloque de memoria, encargado de conservar la informacin o
108
1.5
1 T P P P T T P
(a) Estado del CEC de la primera ( ) y segunda celda ().
0.5
0 T P P P T T P
(b) Compuerta de olvido ( ). Figura 7.1: Activaciones del tercer bloque de memoria de una red LSTM en el tramo en que realiza una prediccin sostenible del lenguaje de Reber. Este bloque o memoriza la informacin de largo plazo de la secuencia. o
de largo plazo de la secuencia. El estado de los CEC se atena por accin de u o la compuerta de olvido sincronizada con la aparicin de los s o mbolos P o T a memorizar. En concreto, el CEC de la segunda celda permanece positivo mientras se ha de recordar una T y negativo cuando se ha de recordar una P . La compuerta de olvido del tercer bloque de memoria est abierta la a mayor parte del tiempo, permitiendo que los CEC retengan la informacin o correspondiente; cuando esta informacin ya ha sido utilizada, la compuerta o de olvido se cierra casi completamente y anula el estado de las celdas.
7.4. DISCUSION
109
1.5
2.5 T P P P T T P
(a) Estado del CEC de la primera ( ) y segunda celda ().
0.5
0 T P P P T T P
(b) Compuerta de olvido ( ). Figura 7.2: Activaciones del primer bloque de memoria de una red LSTM en el tramo en que realiza una prediccin sostenible del lenguaje de Reber. Este bloque o procesa la informacin de corto plazo de la secuencia. o
La gura 7.2, por otra parte, muestra las activaciones del primer bloque de memoria, encargado (al igual que los otros dos bloques, no mostrados) de capturar el comportamiento de corto plazo de la secuencia, necesario para predecir el resto de s mbolos. En este caso, la compuerta de olvido se abre o se cierra en funcin de otros eventos, no asociados a la aparicin de los o o s mbolos P o T correspondientes a las dependencias a largo plazo.
110
Aprendizaje de an bn cn Cuando la red LSTM se combina con el FKED se mejoran notablemente los resultados del algoritmo de descenso por el gradiente utilizado originalmente y se obtiene una convergencia ms rpida y un rendimiento mejorado. a a Anlisis de la solucin. En general, la red LSTM resuelve el problema de a o n bn cn usando una combinacin de dos contadores, instanla inferencia de a o ciados por separado en los dos bloques de memoria. La gura 7.3 muestra las activaciones que se producen en una red LSTM entrenada con el FKED. Las activaciones son las obtenidas al ir aplicando los sucesivos s mbolos de la secuencia a6 b6 c6 a las entradas de una red que ya ha aprendido las secuencias de an bn cn con n 10. Como puede verse en la grca superior, el CEC del primer bloque de a memoria se va incrementando con cada aparicin del s o mbolo a y comienza a decrementarse a partir de la primera b. La aparicin de una c en la o entrada desencadena la clausura de la compuerta de entrada y de la de olvido (vase la grca intermedia), lo que provoca la desactivacin del contador e a o implementado por este primer bloque. De forma similar, el CEC del segundo bloque est desactivado hasta que a aparece la primera b, instante en que la compuerta de entrada se abre y la compuerta de olvido se cierra momentneamente para reiniciar conveniena temente el estado de la celda (vase la graca inferior de la gura 7.3). A e continuacin, el contador implementado por el CEC del segundo bloque coo mienza a decrementarse hasta que la aparicin de la primera c invierte la o tendencia del contador y desencadena un incremento progresivo. En resumen, uno de los bloques de memoria resuelve an bn , mientras que el otro resuelve bn cn . Todo el sistema funciona de manera extremadamente precisa y robusta en ambos algoritmos de entrenamiento. Complejidad. Aunque el nmero de iteraciones que necesita el FKED es u mucho menor que las usadas por el descenso por el gradiente, lo cierto es que aquel tiene un coste computacional, especialmente el temporal, mucho mayor. Si calculamos el tiempo necesario para realizar el entrenamiento sobre 1000 secuencias con el FKED, este resulta ser aproximadamente unas 15 veces superior al invertido por el descenso por el gradiente. La comparacin del descenso por el gradiente y el FKED al usar esta o medida relativa permite constatar que la complejidad adicional de la red LSTM entrenada con el FKED se ve ampliamente compensada con el menor nmero de secuencias necesarias para aprender el conjunto de entrenamiento. u
7.4. DISCUSION
111
20 10
0 10
25 $ a a a a a a b b b b b b c c c c c c
(a) Activacin del CEC y de la salida del primer o bloque de memoria ( y , respectivamente) y del segundo ( y , respectivamente).
0.5
(b) Compuerta de entrada ( ), salida () y olvido ( ) del primer bloque de memoria, encargado de an bn .
0.5
(c) Compuerta de entrada ( ), salida () y olvido ( ) del segundo bloque de memoria, encargado de bn cn . Figura 7.3: Activaciones de los bloques de memoria de una red LSTM que ha aprendido el lenguaje an bn cn .
112
Por ejemplo, en el caso de n [20, 21], el FKED con P [0] = 102 I obtiene un 80% de soluciones correctas con 4 000 secuencias de entrenamiento, lo que equivale en tiempo a 4 000 15 = 60 000 secuencias con descenso por el gradiente; pero, como puede verse en el cuadro 7.5, el descenso por el gradiente requiere una media de 127 000 secuencias y solo obtiene un 20% de soluciones correctas en el caso mejor. LSTM es la primera RNR que generaliza el lenguaje an bn cn con valores de n muy superiores a los utilizados durante el entrenamiento. Al usar el FKED se obtiene un sistema que necesita un nmero de secuencias varios u o rdenes de magnitud por debajo del algoritmo de entrenamiento estndar y a que generaliza an mejor. El modelo LSTM combinado con el FKED neceu sita ver unicamente cadenas de longitud menor que a11 b11 c11 para extraer las reglas generales del lenguaje sensible al contexto an bn cn y generalizar correctamente con secuencias como a1000 b1000 c1000 y an mayores. u
8. DESAMBIGUACION CATEGORIAL
Este cap tulo muestra cmo utilizar una RRS para desambiguar las o categor lxicas de las palabras homgrafas de un texto. Se trata de as e o uno de los primeros ejemplos de uso de RNR en esta tarea. Adems, el a enfoque seguido no necesita textos completamente etiquetados y es original en el hecho de que la desambiguacin se enfoca como un problema o de prediccin. Los contenidos de este cap o tulo han sido publicados en las actas de un congreso internacional (Prez-Ortiz y Forcada 2001). e
Para la introduccin referente a los conceptos de este cap o tulo puede consultarse los apartados 1.2.3 y 5.3. All se vi que un etiquetador mor o folgico es un programa que asigna a cada palabra de un texto una categor o a lxica; esta tarea es especialmente importante cuando uno se encuentra con e palabras ambiguas, a las que puede corresponder, en principio, ms de una a etiqueta dependiendo del contexto. La mayor de los etiquetadores se basan a en la suposicin de que las palabras vecinas son utiles a la hora de desamo biguar estas palabras. Aqu haremos uso de esa informacin contextual con o una RNR.
8.1. Mtodo e
En estos experimentos se explora el uso de una RRS para el etiquetado de las categor lxicas de las palabras de una oracin. En primer lugar, el as e o texto de entrenamiento se etiqueta parcialmente mediante un diccionario o lxico (un analizador morfolgico) que asigna a cada palabra una clase de e o ambigedad, esto es, un conjunto de posibles categor lxicas (este conjunu as e to tiene un unico elemento en el caso de las palabras no ambiguas). En este trabajo se usan clases de ambigedad y no palabras: los primeros estudios u de Elman (1990) se realizaron sobre pequeos vocabularios, pero los vocan bularios reales tienen miles de entradas, mientras que el nmero de clases u de ambigedad es normalmente de unos cientos; esto reduce drsticamente u a el tamao de la tarea de prediccin. n o Todos los trabajos neuronales anteriores (vase el apartado 5.3) se basan e en entrenar la red a partir de corpus completamente etiquetados, adems de a 113
114
usar para las palabras representaciones basadas tambin en textos complee tamente etiquetados. Este trabajo es tambin un ejemplo de acercamiento e al tema desde un punto de vista neuronal, pero la gran diferencia es que la RNR se entrena a partir de un corpus parcialmente etiquetado. Como se ver con ms detalle a continuacin, se entrena una RRS para a a o que aprenda a predecir la clase de ambigedad de la siguiente palabra del u texto; a continuacin, se usa un perceptrn sin capa oculta para extraer o o la categor lxica a partir de la informacin de estado desarrollada por la a e o RNR para el texto considerado durante la primera fase del entrenamiento. Los experimentos mostrarn las tasas de error al etiquetar algunos textos a del corpus del Penn Treebank (Marcus et al. 1993). Tambin se indican los e resultados con un modelo oculto de Markov (MOM, vase el apndice A) e e con los mismos datos. 8.1.1. Fases de entrenamiento En nuestro enfoque, la RRS se entrena en dos fases: en primer lugar, el texto de entrenamiento se etiqueta parcialmente mediante un lxico o e analizador morfolgico, de manera que se asigna a cada palabra un conjunto o de categor lxicas. As el texto de entrenamiento pasa a ser un conjunto as e , de secuencias (una por cada oracin) de clases de ambigedad de la forma o u a[1], . . . , a[t], . . . Tras esto, comienza un proceso de entrenamiento fuera de l nea por secuencias en dos fases:
Primera fase. La RRS es entrenada para predecir la clase de ambigedad u de la siguiente palabra y[t] a[t+1] a partir de la clase de ambigedad u de la palabra actual a[t], e, indirectamente, a partir de las clases de las palabras anteriores de la frase, a[1], , a[t 1], que idealmente estarn representadas en el estado de la red, x[t]. Es de esperar que a de esta manera la RRS aprender a desarrollar en su estado x[t] una a representacin sintctica del prejo visto de la oracin, lo que permio a o tir realizar una prediccin acertada de la clase de ambigedad de la a o u siguiente palabra. Como ya se ha hecho en otros lugares de esta tesis, se utiliza la codicacin exclusiva tanto para las entradas como para las salidas deseadas; o as al utilizar una funcin de error cuadrtica, las salidas pueden , o a interpretarse como probabilidades (vase el apartado 4.3.1). Como e algoritmo de entrenamiento se utiliza descenso por el gradiente con
8.1. METODO
115
RTRL.1 Adems, tambin se aprende durante el entrenamiento el esa e tado inicial (Bulsari y Saxn 1995; Forcada y Carrasco 1995) de forma e que la RRS se reinicia al estado aprendido al principio de cada frase para evitar las interferencias entre frases, ya que, a n de cuentas, solo el contexto oracional inuye en la categor lxica. a e Segunda fase. Despus del entrenamiento, cada palabra del texto se etie queta con el vector de estado x[t] calculado para ella por la red; entonces, para cada palabra del texto se entrena un perceptrn para o que aprenda su categor lxica a partir del vector de estado asignado a e a la palabra que est f posiciones a su derecha, x[t + f ]. El valor a de f representa la cantidad de contexto posterior (a la derecha) que se necesita para desambiguar una palabra; la cantidad de contexto anterior (a la izquierda) necesaria es determinada por el propio algoritmo de entrenamiento. Ntese cmo para que esto funcione, hay que o o aadir f marcadores articiales de nal de frase (una palabra no amn bigua) y aprender a predecirlos durante la primera fase como el resto de palabras.2 En esta segunda fase se asigna una neurona de salida a cada categor a lxica. A la hora de representar la salida deseada d[t] para una palabra e ambigua, se han utilizado tres esquemas distintos: 1. Los componentes correspondientes a categor de la clase de amas bigedad se ponen a 1 y el resto de componentes a 0. u 2. Como el punto anterior, pero usando 1/ en lugar de 1, donde 1 es el tamao de la clase de ambigedad. n u 3. Solo se impone una salida deseada con valor 0 a las categor no as incluidas en la clase de ambigedad; el resto no contribuyen a la u funcin de error. o Aunque el tercer enfoque es el unico que garantiza la convergencia a las probabilidades de las etiquetas (con una funcin de error cuadrtica, o a por ejemplo) en el caso de las palabras ambiguas, los experimentos demuestran que el primer enfoque es el que proporciona los mejores resultados. La combinacin de la parte del estado de la RRS y el perceptrn se utiliza o o para determinar la categor lxica de las palabras de oraciones nuevas. a e Las guras 8.1 y 8.2 ilustran el esquema de entrenamiento de la primera y segunda fases, respectivamente.
1 El algoritmo de entrenamiento no tiene un papel vital en un trabajo como este, que pretende ser una demostracin de una idea; por eso usamos RTRL y no formas ms o a idneas, pero ms costosas, como BPTT. o a 2 Tambin habr sido posible utilizar el mismo marcador articial f veces seguidas al e a nal de cada frase.
116
a[1] a[2] a[3] ... x[0] x[1] x[2] . . . a[1] a[2] ...
a[L] #1 #2 ... x[L 1] x[L] x[L + 1] . . . a[L 1] a[L] #1 ...
#f +1 x[L + f ] #f
Figura 8.1: Primera fase del entrenamiento: prediccin de la siguiente clase de ambigedad. el s o u mbolo signica valor predicho; los # son los marcadores de nal de frase. Ntese la secuencia de f marcadores de nal de frase, necesaria para poder etiquetar las o ultimas f palabras de cada frase en la segunda fase del entrenamiento.
8.1. METODO
x[0] x[1] . . . a[1] ...
d[1] ... x[f + 1] . . . a[f + 1] ...
d[L f 1] d[L f ] ... x[L 1] x[L] ... a[L 1] a[L] ...
d[L] x[L + f 1] #f
Figura 8.2: Segunda fase del entrenamiento: prediccin de la etiqueta correcta a partir de la informacin de estado. La salida deseada o o d[t] sigue uno de los tres esquemas de la pgina 115. a
117
118
8.1.2. Modelos alternativos Para evaluar los resultados de nuestro enfoque, los compararemos con los obtenidos con otros tres modelos: Modelo de Markov. Un modelo oculto de Markov (MOM) estndar a entrenado mediante el algoritmo de Baum y Welch, como se muestra en el apndice A. e Aleatorio. Un modelo que escoge aleatoriamente una etiqueta lxica en e cada clase de ambigedad con probabilidad 1/, donde es el nmero u u de etiquetas de la clase. Etiqueta predominante. Un modelo de etiqueta predominante globalmente en el que se selecciona siempre la categor lxica ms probable a e a de cada clase de ambigedad segn el muestreo realizado en un corpus u u completamente etiquetado; el Penn Treebank, en este caso. Los resultados del etiquetado sobre los textos de evaluacin se comparan o con una versin etiquetada a mano de los mismos textos. El primero de o los modelos anteriores es la solucin estndar al problema, mientras que o a los otros dos se usan como punto base de referencia. El ultimo modelo es, de hecho, injusto porque utiliza informacin que no est disponible en el o a conjunto de entrenamiento.
8.2. Parmetros a
Los experimentos determinaron las tasas de error obtenidas al etiquetar textos del corpus Penn Treebank versin 3 (Marcus et al. 1993). Se construy o o un lxico de 14 276 entradas a partir de las primeras 20 secciones de los 24 e conjuntos de datos correspondientes al Wall Street Journal ; se eliminaron todas las palabras que aparec menos de 4 veces (con lo que se cubre el an 95%) y las etiquetas que se asociaban a una palabra menos de un 5% de las veces. No se utiliz ningn adivinador. o u El corpus de entrenamiento tiene 46 461 palabras; el corpus independiente de evaluacin tiene 47 397 palabras, de las cuales 6 574 son ambiguas o segn el lxico y 2 290 son desconocidas. Las 45 etiquetas originales del Penn u e Treebank se redujeron a 19 etiquetas ms gruesas (a las que debe sumarse a los marcadores articiales de n de frase) eliminando algunas distinciones lxicas; con ello el nmero de clases de ambigedad observadas era de 82. e u u El nuevo conjunto de etiquetas se muestra en el cuadro 8.1 y una breve descripcin de su signicado en el cuadro 8.2. o
8.2. PARAMETROS
119
Nueva etiqueta XSYM . : XCC XCD XDT XEX XFW XIN XJJ XVB XNN XPOS XPRP XRB XRP XTO XUH XWH
Etiquetas que agrupa \# \$ ( ) , LS SYM . : CC CD DT PDT PRP$ EX FW IN JJ JJR JJS MD VB VBD VBG VBN VBP VBZ NN NNS NNP NNPS POS PRP RB RBR RBS RP TO UH WDT WP WP$ WRB
Cuadro 8.1: Reduccin del etiquetario del Penn Treebank (Marcus et al. 1993). o Por ejemplo, la categor XNN agrupa lo que originalmente estaba separado como a nombre propio o comn y singular o plural. u
Para entrenar la RRS, se usa entrenamiento fuera de l nea por secuencias y descenso por el gradiente con RTRL. La tasa de aprendizaje es = 0.05 (sin momento). La inuencia del nmero de neuronas de estado nX se u muestra en los experimentos. Los pesos iniciales se tomaron aleatoriamente en el rango [0.2, 0.2]. Todos los resultados neuronales son la media de tres experimentos distintos. Los resultados se expresan como el porcentaje de etiquetas incorrectas asignadas a palabras ambiguas (incluyendo las desconocidas), no como el porcentaje general de etiquetas correctas, una medida habitual, pero confusa, ya que muchas palabras no son ambiguas y, adems, el hecho de que a en algunos idiomas la ambigedad sea mayor que en otros impide la comu paracin de etiquetadores cuyos experimentos se muestren sobre distintos o idiomas.
120
Etiqueta XSYM . : XCC XCD XDT XEX XFW XIN XJJ XVB XNN XPOS XPRP XRB XRP XTO XUH XWH
Descripcin o S mbolo Punto Dos puntos Conjuncin coordinativa o Nmero cardinal u Determinante o pronombre posesivo There existencial Palabra que no est en ingls a e Preposicin o conjuncin subordinativa o o Adjetivo Verbo Nombre Terminacin del posesivo o Pronombre personal Adverbio Part cula To Interjeccin o Determinante, pronombre o adverbio con wh-
Cuadro 8.2: Descripcin de las etiquetas categoriales empleadas en los experio mentos.
8.3. Resultados
Una serie de experimentos permiti constatar que los mejores resultados o se obtienen con f = 0, es decir, usando directamente en la segunda fase del entrenamiento el estado de la RRS obtenido para una palabra como referencia para determinar su categor lxica. Como ejemplo, en el cuadro 8.3 a e se muestran los resultados con nX = 12 y f = 0, 1. El valor nX = 12 es un buen compromiso entre el tamao de la red y las tasas de error obtenidas n como puede observarse en el cuadro 8.4, donde pueden verse los resultados segn el nmero de iteraciones en cada fase con distintos nmeros de neuu u u ronas de estado y con f = 0. Adems, este valor hace que el nmero de a u parmetros de la RRS a ajustar sea muy similar a los del MOM empleado. a Modelo oculto de Markov. Los resultados del MOM se muestran en el cuadro 8.5 en funcin del nmero de iteraciones del algoritmo de Baum y o u Welch. Aleatorio. El etiquetado aleatorio proporciona una tasa de etiquetas incorrectas entre el 61.8% y el 62.9% (5 479 y 5 572 errores, respectivamente),
8.3. RESULTADOS
Iteraciones fase 2
0 100 200 300 400 500
0 98.7, 95.4 96.7, 92.0 96.8, 90.4 96.1, 90.6 96.5, 90.6 96.9, 89.6
100 61.8, 67.8 59.9, 46.4 55.2, 45.6 55.8, 44.9 55.8, 44.4 55.5, 45.1
Iteraciones fase 1 200 300 62.1, 66.7 62.0, 66.6 60.1, 47.3 60.2, 47.4 55.3, 45.4 55.2, 45.4 56.0, 44.5 55.7, 44.4 55.8, 44.9 55.8, 45.1 55.5, 45.5 55.5, 45.5 400 62.1, 66.4 60.2, 47.4 55.1, 45.2 55.7, 44.2 55.7, 45.0 55.5, 45.6 500 62.3, 66.4 60.2, 47.5 54.9, 45.0 55.4, 44.2 55.8, 45.0 55.7, 45.5
Cuadro 8.3: Tasas de error con 12 neuronas de estado y contexto derecho f = 1, 0 segn el nmero de iteraciones de cada fase. u u Horizontal: iteraciones de la fase 1; vertical: iteraciones de la fase 2.
121
122
Iteraciones fase 2
0 100 200 300 400 500
0 88.9, 95.4, 100.0 87.2, 92.0, 100.0 86.0, 90.4, 99.7 86.2, 90.6, 99.2 86.3, 90.6, 99.2 86.4, 89.6, 98.8 68.7, 60.2, 61.6, 60.6, 60.4, 60.2, 59.7 49.4 47.5 46.1 44.5 45.6 57.9 49.6 47.6 45.7 43.8 44.7 70.6, 59.4, 65.1, 65.2, 64.0, 63.7,
100 67.8, 46.4, 45.6, 44.9, 44.4, 45.1,
Iteraciones 200 73.4, 66.7, 58.1 60.0, 47.3, 49.6 64.4, 45.4, 47.5 62.6, 44.5, 46.1 61.5, 44.9, 44.0 61.7, 45.5, 45.1
fase 1 300 71.8, 66.6, 59.6, 47.4, 65.0, 45.4, 64.6, 44.4, 63.1, 45.1, 63.0, 45.5,
400 66.4, 47.4, 45.2, 44.2, 45.0, 45.6,
58.2 49.6 47.5 45.2 43.6 44.4
69.6, 59.5, 65.6, 65.1, 64.8, 64.1,
500 66.4, 47.5, 45.0, 44.2, 45.0, 45.5,
58.8 49.6 47.5 45.1 43.5 44.2
Cuadro 8.4: Tasas de error con nX = 4, 12, 24 y contexto derecho f = 0 segn el nmero de iteraciones de cada fase. Horizontal: u u iteraciones de la fase 1; vertical: iteraciones de la fase 2.
8.4. DISCUSION
123
Iteraciones Error
0 62.8
1 51.7
2 48.8
3 47.2
4 46.0
5 45.5
6 45.3
7 45.3
8 45.5
Cuadro 8.5: Tasas de error con un MOM en funcin del nmero de iteraciones o u del algoritmo Baum y Welch.
segn se observ en 14 experimentos con distintas semillas para el generador u o de nmeros aleatorios. u Etiqueta predominante. Esta estrategia da tasas de error de 20.5%, un resultado razonablemente bueno, aunque debe tenerse en cuenta que se basa en la disponibilidad de un corpus etiquetado a mano y que este mtodo no e puede hacer nada con las palabras desconocidas (no existentes en este caso), las cuales suelen representar un porcentaje considerable de las palabras de los textos de evaluacin. o Etiquetador neuronal. Consideraremos los resultados de un modelo neuronal con aproximadamente el mismo numero de parmetros que los MOM a correspondientes; por ello nos centraremos en los resultados con 12 neuronas de estado, aunque los resultados con 24 eran ligeramente mejores. Los resultados para f = 0 y f = 1 se muestran el cuadro 8.3 en funcin del o nmero de iteraciones en cada fase. Como puede verse, aadir una palau n bra de contexto posterior confunde a la RRS, que hace mejores predicciones basndose unicamente en el contexto pasado. Tambin se observa cmo un a e o entrenamiento intenso en la fase 2 es ms importante que en la fase 1. a La tasa de etiquetado correcto global sobre palabras ambiguas y no ambiguas de la RRS y del MOM est en torno al 92%: los mejores resultados a son un 91.5% (4 011 errores) para el MOM y un 91.9% (3 852 errores) para la RNR.
8.4. Discusin o
Un etiquetador neuronal sencillo con aproximadamente el mismo nmero u de parmetros ajustables obtiene basicamente los mismos resultados (en tora no a un 45% de etiquetas incorrectas) que un MOM estndar entrenado con a el algoritmo de Baum y Welch. El etiquetador neuronal, sin embargo, toma las decisiones relativas a las palabras ambiguas sin tener en cuenta las palabras posteriores, mientras que el MOM tiene que posponer esta decisin hasta encontrar una palabra no ambigua (vase el apndice A). Esta o e e capacidad no parece dar ventaja alguna al MOM sobre la RRS.
124
Como se ha podido constatar, la informacin almacenada en el estado de o una RNR entrenada para predecir la categor lxica de la siguiente palabra a e puede ser util en el problema del etiquetado categorial. Los resultados indi can que el rendimiento de ambos enfoques, el basado en MOM y el neuronal, son comparables, aunque este ultimo ignora el contexto posterior. Una diferencia signicativa entre nuestro mtodo y los MOM es que estos e desambiguan globalmente (el algoritmo de Viterbi realiza una optimizacin o global sobre toda la frase o, como m nimo, sobre segmentos delimitados por las palabras no ambiguas), mientras que el nuestro lo hace localmente. En cualquier caso, el coste temporal de entrenamiento es signicativamente mayor para el caso neuronal (horas) que para el MOM (minutos).
9. PREDICCION DE SENALES DE VOZ
Los unicos trabajos previos que usan RNR para la prediccion de seales n de voz se basan en la RNRC, un modelo formado por una sucesin de o redes sencillas en cascada. En este cap tulo estudiaremos cmo se o comportan en esta tarea las RNR clsicas. Los siguientes resultados a han sido presentados en un congreso internacional (Prez-Ortiz et al. e 2001a).
La introduccin a los contenidos de este cap o tulo puede encontrarse en los apartados 1.2.4 y 5.4.
9.1. Mtodo e
Siguiendo la l nea de los trabajos de Haykin y Li (1995) y Baltersee y Chambers (1998), el modelo de predictor que usaremos est compuesto a por un predictor no lineal (una RNR) que deber proporcionar una salida a localmente ms lineal que la seal de entrada, seguido de un predictor lineal a n (un ltro) que sacar partido de esta linealizacin. Cada mdulo se entrena a o o de forma separada. Es de esperar que esta combinacin de un ltro no lineal o con un ltro lineal deber poder extraer tanto la informacin no lineal como a o la lineal contenida en la seal de entrada con vistas a producir la prediccin n o (Haykin y Li 1995). La gura 9.1 muestra un diagrama para el modelo en cascada completo. El primer mdulo se entrena para predecir la muestra u[t] a partir de las o p muestras anteriores1 y de la informacin almacenada en el estado de la o red. La seal predicha u[t] se introduce, entonces, en el mdulo lineal, que n o es entrenado para predecir la muestra del instante t + 1. Esta ultima se considera la salida global del sistema. Como se muestra en el diagrama (siguiendo los art culos citados antes), el mdulo no lineal tiene orden de o entrada p, y pL es el orden correspondiente del predictor lineal. Adems a
La introduccin expl o cita en la red de las muestras recientes le da una ventaja adicional sobre las redes de una unica entrada que solo pueden acceder a esta historia a travs de e su estado. Los experimentos determinarn la importancia de este aadido. a n
1
125
126
u[t 1] z 1 u[t p] z 1 z 1 u[t 2]
Filtro neuronal recurrente u[t] z 1 u[t pL ] z 1 z 1 u[t 1]
Filtro lineal u[t + 1]
Figura 9.1: Modelo de predictor que combina ltros lineales y no lineales (Haykin y Li 1995).
de los resultados de este modelo h brido, se mostrarn tambin en algunos a e casos los resultados de ambos tipos de predictores por separado. A continuacin se describen los modelos usados en las partes lineal y no o lineal del predictor.
9.1.1. Predictores no lineales Compararemos el rendimiento de las siguientes RNR (vase el cap e tulo 3) cuando actan como predictores no lineales: la RNRC, la RRS y la RPR. u Tambin se experiment con otros modelos, como la RTR o la red NARX, e o para obtener resultados similares a los de la RRS o la RPR, que no se mostrarn aqu Como algoritmos de entrenamiento en l a . nea se consideran el descenso por el gradiente (que representaremos por DG en las guras y cuadros de este cap tulo) y el FKED, ambos con derivadas calculadas segn u RTRL.
9.2. PARAMETROS
127
9.1.2. Predictores lineales El predictor lineal es un ltro FIR (vase el cap e tulo 3) con los pesos adaptados por medio del algoritmo de m nimos cuadrados (LMS, por el ingls least-mean-square) (Oppenheim y Schafer 1989; Proakis y Manolakis e 1996) o por medio del algoritmo de m nimos cuadrados recursivo (RLS, por el ingls recursive least-squares) (Oppenheim y Schafer 1989; Proakis y e Manolakis 1996); el primero guarda relacin con el descenso por el gradiente o y el segundo con el ltro de Kalman. Para determinar un rendimiento base, tambin evaluaremos la calidad e de prediccin con el predictor lineal sin parmetros ms sencillo posible: el o a a que calcula u[t + 1] = u[t].
9.2. Parmetros a
Estudiaremos la calidad de los predictores con las tres seales (todas n de 10 000 muestras) utilizadas por Baltersee y Chambers (1998).2 El rendimiento se mide con la ganancia de prediccin (GP), expresada en decibelios, o que se dene como: G = 10 log10
2 Su 2 Se
(9.1)
2 2 donde Su es la varianza estimada de la seal de voz u[t] y Se es la varianza n estimada de la seal de error e[t] = u[t] u[t]. La GP puede verse como una n relacin seal-ruido para el ruido introducido por la prediccin errnea. o n o o
Las amplitudes de las tres seales pertencen al rango [0, 1], por lo que n utilizaremos la funcin sigmoidea log o stica gL para las activaciones de las neuronas de salida de las RNR y, en general, para todas las funciones de activacin. o Basndonos de nuevo en los trabajos previamente citados, llevaremos a a cabo con los modelos neuronales un aprendizaje inicial por pocas sobre 200 e muestras de la seal de entrada.3 El nmero de pocas utilizado es de 200 n u e para el descenso por el gradiente y de 5 para el FKED. Estos valores son los que dieron mejores resultados en distintos experimentos preliminares: valores mayores para el caso del FKED o menores para el descenso por el gradiente reduc la GP en unos cuantos decibelios. an
2 Las seales s1, s2 y s3 estn disponibles en la pgina de J. Baltersee en la direccin n a a o http://www.ert.rwth-aachen.de/Personen/baltersee.html. 3 Esto aten a parcialmente la naturaleza en l u nea de la prediccin, pero podr ser o a aceptable si su complejidad es baja. Los experimentos demostraron que esta inicializacin o ten gran inuencia en las ganancias de prediccin conseguidas. a o
128
Entrenamiento LMS RLS
Se al 1 n 8.99 13.32
Se al 2 n 7.98 11.60
Se al 3 n 5.82 9.66
Cuadro 9.1: Ganancias de prediccin en decibelios para un ltro FIR de orden o pL = 12.
Entrenamiento RNRC (DG) + LMS RNRC (DG) + RLS RNRC (FKED) + RLS
Se al 1 n 10.25 13.01 14.73
Se al 2 n 9.49 11.80 13.59
Se al 3 n 7.30 9.24 10.90
Cuadro 9.2: Ganancias de prediccin en decibelios con una RNRC. Valores too mados del trabajo de Baltersee y Chambers (1998).
A menos que se diga lo contrario, todas las GP mostradas son la media de 7 inicializaciones distintas de los pesos; la varianza de todos los resultados estaba por debajo de 0.3. Los pesos iniciales se tomaron aleatoriamente de una distribucin en [-0.2,0.2]. o Cuando se usa el descenso por el gradiente con la RRS y la RPR, los parmetros son = 0.3 y = 0. Por otro lado, los parmetros del FKED a a sobre estos modelos son: Q[t] : 102 106 R[t] : 100 3 P [0] = 1000I
T =1000 T =1000
9.3. Resultados
Las GP obtenidas con un ltro lineal de orden pL = 12 al usar los algoritmos LMS o RLS se muestran en el cuadro 9.1. En este caso, el factor de olvido para RLS es 0.998, los elementos de la diagonal de la matriz de correlacin inversa de RLS se inicializan a 100, y LMS usa una constante o de adaptacin de 0.2. Estos valores son los que proporcionaron mejores o resultados en experimentos preliminares. Los resultados con la RNRC estn tomados de los experimentos de Bala tersee y Chambers (1998) y se muestran en el cuadro 9.2. En su art culo se pueden encontrar detalles sobre los parmetros de entrenamiento utilizados. a Debe destacarse que en el citado art culo no aparece indicacin alguna sobre o
9.3. RESULTADOS
129
12 11 10 9 8 7 6 5 p=1 p=2 p=3
Figura 9.2: Ganancias de prediccin para la seal 1 con la RRS y DG ( ), o n FKED (), DG+LMS ( ), FKED+LMS () y FKED+RLS ( ). La l nea constante representa el rendimiento base, u[t + 1] = u[t].
G (dB) G (dB)
12 11 10 9 8 7 6 5 p=1 p=2 p=3
Figura 9.3: Ganancias de prediccin para la seal 1 con RPR y DG ( ), FKED o n (), DG+LMS ( ), FKED+LMS () y FKED+RLS ( ). La l nea constante representa el rendimiento base, u[t + 1] = u[t].
resultados medios, ya que solo se muestran los resultados de un experimento con parmetros ad hoc (elegidos de forma diferente para cada seal). En a n cualquier caso, incluso los mejores resultados obtenidos aqu con el resto de modelos recurrentes son, como se ver, peores que los obtenidos con la a RNRC. Los cuadros y las grcas indican el algoritmo de entrenamiento en l a nea utilizado para las RNR y, de haberlos, el utilizado para los ltros lineales,
130
11 10 9 G (dB) 8 7 6 5 4 p=1 p=2 p=3
Figura 9.4: Ganancias de prediccin para la seal 2 con RRS y DG ( ), FKED o n (), DG+LMS ( ), FKED+LMS () y FKED+RLS ( ). La l nea constante representa el rendimiento base, u[t + 1] = u[t].
separados por un signo de suma. El orden del ltro lineal es en todos los casos pL = 12. Los resultados al usar los predictores basados en RRS y RPR con nX = 5 se muestran en las guras de la 9.2 a la 9.7 para diferentes valores del orden de entrada p. En estos casos los parmetros son 0.2 para la constante a de adaptacin de LMS, 1 para el factor de olvido de RLS (es decir, no o se considera el factor de olvido: los valores por debajo de 1 hac que an el sistema se volviera inestable) y 1000 para los elementos iniciales de las matrices de correlacin de RLS. o El valor nX = 5 y los rdenes de entrada p = 1, 2, 3 se eligieron de modo o que el nmero de parmetros a aprender fuera comparable con los usados u a por Baltersee y Chambers (1998), que consideraron RNRC con unos 35 pesos ajustables.4 En cualquier caso, las RRS y RPR con un nmero diferente de u neuronas de estado dieron resultados que no variaban signicativamente con respecto a los presentados para nX = 5; por ejemplo, con nX = 1 los resultados con descenso por el gradiente son prcticamente los mismos, a mientras que los del FKED estn 1 dB por debajo; con nX = 10, el descenso a por el gradiente vuelve a dar GP similares, mientras que el FKED las mejora muy poco (entre 0 y 0.5 dB, segn el modelo de red y la seal concreta). u n
El nmero de pesos, incluidos los sesgos, de una RRS de orden p con una unica u salida es (p + nX + 2)nX + 1; en el caso de una RPR de orden p con una unica salida es (p + nX + 2)nX + p + 1.
9.3. RESULTADOS
131
11 10 9 G (dB) 8 7 6 5 4 p=1 p=2 p=3
7 G (dB)
3 p=1 p=2 p=3
Figura 9.6: Ganancias de prediccin para la seal 3 con RRS y DG ( ), FKED o n (), DG+LMS ( ), FKED+LMS () y FKED+RLS ( ). La l nea constante representa el rendimiento base, u[t + 1] = u[t].
Finalmente, las GP de un ltro simple de la forma u[t + 1] = u[t] se muestran como l neas constantes en las guras 9.2 a 9.7. Este es el modo ms a sencillo de predecir la siguiente secuencia y se muestra aqu como referencia base.
132
7 G (dB)
3 p=1 p=2 p=3
9.4. Discusin o
De entre los tres modelos recurrentes estudiados, solo la RNRC entrenada con el FKED y seguida por un ltro lineal entrenado con RLS supera claramente (entre 1 dB y 2 dB por encima) la GP de un ltro lineal de orden 12 entrenado con RLS. El resto de conguraciones neuronales (en cascada o no) se comportan mucho peor que un sencillo ltro FIR con menos parmetros a entrenado con RLS. Al usar aisladamente la RRS o la RPR, el FKED produce resultados mucho mejores que los del algoritmo de descenso por el gradiente: el FKED permite obtener GP superiores entre 1 dB y 3 dB. Los resultados con ambos modelos y el FKED conrman de forma consistente anteriores estudios (Birgmeier 1996) que situaban en unos 3 dB la mejora de los predictores no lineales sobre los lineales entrenados con LMS. Sin embargo, ninguno de los algoritmos de entrenamiento permite alcanzar las GP de un ltro FIR entrenado con RLS. Curiosamente, al situar en cascada predictores basados en RRS o RPR y predictores lineales, los resultados son peores que cuando se utilizan los predictores no lineales (RRS y RPR) aisladamente. Los resultados de estas conguraciones en cascada son muy negativos al compararlos con la referencia base (un predictor que se limita a reproducir la muestra actual); de hecho, para las seales 2 y 3 incluso son peores. n
9.4. DISCUSION
133
En resumen, se est produciendo la siguiente situacin: podemos cona o siderar que tenemos dos tipos de predictores no lineales, P (una RNRC) y S (una RRS o una RPR, ambas con comportamientos similares), y que, de manera opcional, alimentamos un predictor lineal L con sus salidas. Sea GP , GS las GP de los predictores no lineales por separado, GL la GP del predictor lineal, y GP L , GSL las GP del modelo h brido en cascada. A partir de los resultados anteriores podemos concluir:5 GP L > GS GP L > GP GSL < GS GP L > GL GSL < GL (9.2) (9.3) (9.4) (9.5) (9.6)
De (9.5) y (9.6), podemos concluir que P ltra adecuadamente la seal n para su posterior tratamiento lineal cancelando al menos localmente las no linealidades, mientras que, por el contrario, S parece amplicar estas no linealidades y degradar el rendimiento del ltro lineal. Este aspecto parece importante y merece un estudio ms detallado. a De (9.3) y (9.4) deducimos que ninguna de las conguraciones en cascada es adecuada para la RRS o la RPR, mientras que es ms que recomendable a para la RNRC. Las ecuaciones (9.2) y (9.4) arman la superioridad de la RNRC en cascada sobre los otros modelos recurrentes. Al comparar la RPR y la RRS, esta da GP ligeramente superiores. Una explicacin posible es que al usar la RRS se necesita usar correctamente o la informacin del estado, mientras que con la RPR podemos ignorar esta o informacin y concentrarnos exclusivamente en las conexiones directas entre o las capas de entrada y salida. La dependencia positiva del orden de entrada p es evidente al usar el FKED, pero es menos obvia en el caso del descenso por el gradiente (de hecho, en algunos casos, al incrementar p se reduce la correspondiente GP). Finalmente, en experimentos adicionales, los predictores basados en la RRS y la RPR fueron introducidos en un sistema de codicacin de voz real o que segu el estndar G721 relativo a la modulacin adaptativa diferencial a a o de pulsos (ADPCM, adaptive dierential pulse code modulation) (Benvenuto et al. 1987). Reemplazamos el predictor IIR del estndar G721 (dos polos a y seis ceros) con RNR y RPR, sin cambiar el cuantizador adaptativo del estndar. Los nuevos resultados conrman los anteriores: en este caso, solo a
La ecuacin (9.3) debe de ser cierta, ya que Baltersee y Chambers no muestran resulo tados individuales para la RNRC.
5
134
el FKED obtiene tasas de compresin similares a las del ltro IIR original o y el descenso por el gradiente da ganancias mucho ms bajas. a Este trabajo constata, de nuevo, la notable superioridad del algoritmo de entrenamiento basado en el FKED sobre el descenso por el gradiente. Adems, la seal predicha por RRS y RPR presenta un carcter no lineal a n a ms marcado que el de la propia seal original, lo que hace inviable un a n predictor lineal posterior en una conguracin en cascada. El rendimiento o de la RNRC, sin embargo, es mejorado por el predictor lineal. Algunos trabajos anteriores detectaron severas limitaciones (Gers et al. 2001; Hallas y Dorner 1998) de las RNR al ser aplicadas a tareas de prediccin numrica no lineales. Los hallazgos de este cap o e tulo sugieren similares conclusiones.
10. CONCLUSIONES Y PERSPECTIVA
A modo de clausura, se presentan ahora las principales conclusiones, las contribuciones de la tesis, y algunas ideas para desarrollar futuras investigaciones.
10.1. Conclusiones
En esta tesis se han estudiado diversas aplicaciones de las redes neuronales recurrentes (RNR, cap tulo 2) de tiempo discreto usadas en modo predictivo. Como se vio al plantear inicialmente los problemas a resolver (cap tulo 1), una estimacin adecuada del siguiente elemento de una secueno cia temporal puede ser util para comprimir secuencias simblicas, inferir o lenguajes, desambiguar palabras homgrafas o comprimir seales de voz dio n gitalizada, tareas cuyo estudio se ha abordado en los cap tulos 6, 7, 8 y 9, respectivamente. Se ha podido comprobar que RNR como la red recurrente simple (RRS) o la red parcialmente recurrente (RPR) no tienen tanta memoria como podr a presumirse en primera instancia (cap tulo 3). Aunque trabajan adecuadamente con lenguajes sencillos y altamente estructurados (especialmente lenguajes regulares), surgen diversos problemas a la hora de considerar fuentes secuenciales ms elaboradas. As las RNR estudiadas no logran a , capturar acertadamente la dinmica de los textos en lenguaje natural y son a claramente superadas por modelos ms sencillos como los basados en na gramas (cap tulo 6). Por otro lado, los resultados obtenidos con secuencias numricas correspondientes a seales de voz digitalizada son poco alentadoe n res (cap tulo 9): las ganancias de prediccin de las redes recurrentes clsicas o a no superan las obtenidas con sencillos ltros lineales entrenados mediante el algoritmo de m nimos cuadrados recursivo (RLS). Estos experimentos se llevaron a cabo considerando dos algoritmos de entrenamiento: el sencillo descenso por el gradiente y el ms complejo ltro a de Kalman extendido desacoplado (FKED). Aunque los problemas constatados se siguen produciendo al utilizar el FKED, este saca mayor provecho de la capacidad memor stica terica de las RNR y supera ampliamente en o todos los casos estudiados los resultados del descenso por el gradiente. 135
136
En cualquier caso, debe tenerse en cuenta que los experimentos desarrollados en los cap tulos 6 y 9 consideran un modo de operacin completamente o en l nea (cap tulo 4), es decir, las salidas de la RNR son utilizadas inmediatamente y la red no tiene opcin de reconsiderar ninguna de ellas. La o prediccin en l o nea es, por tanto, ms exigente que la realizada fuera de a l nea, pero este es el escenario predictivo a estudio. Por otro lado, un problema adicional surge cuando la estimacin del o siguiente elemento de la secuencia depende del valor de un elemento relativamente lejano en el tiempo. Estas dependecias a largo plazo (cap tulo 4) suelen ser un obstculo insalvable para la mayor de las RNR. Este problema a a puede estudiarse desde la perspectiva del gradiente evanescente (cap tulo 4), fenmeno que afecta en mayor o menor medida a todos los algoritmos de o entrenamiento basados en el clculo de la derivada de la funcin de error a o y que les impide manejar con correccin este tipo de dependencias. Para o superar este problema, recientemente se ha propuesto el modelo neuronal de memorias a corto y largo plazo (cap tulo 3), conocido como red LSTM. En esta tesis se ha aplicado la red LSTM a la inferencia mediante prediccin de dos tipos de lenguajes, ambos con dependencias a largo plazo: un o lenguaje regular y un lenguaje sensible al contexto. Las RNR convencionales no pueden manejar las dependencias a largo plazo presentes en estas secuencias. Sin embargo, en algunos trabajos previos, varios autores comprobaron que la red LSTM s pod hacerlo. En esta tesis he llevado an ms lejos a u a (cap tulo 7) esta capacidad al combinar la red LSTM con el FKED. Con este algoritmo de entrenamiento se pueden superar dependencias separadas por varios miles de s mbolos, valores nunca alcanzados anteriormente con LSTM. Estos resultados corroboran las armaciones hechas ms arriba: el a FKED combate ecazmente el efecto de amnesia de las RNR; el mayor coste temporal del FKED con respecto al habitual algoritmo de descenso por el gradiente se compensa muchas veces con una velocidad de aprendizaje superior. Adems, la solucin desarrollada por la red LSTM con el FKED es a o igual a la que se obtiene con el algoritmo de descenso por el gradiente, pese a las diferencias notables existentes entre ambos algoritmos de entrenamiento. Finalmente, se ha usado de una forma original la informacin secueno cial almacenada en el estado de una RRS para desambiguar las palabras homgrafas de una oracin (cap o o tulo 8). Los resultados son similares a los proporcionados por un modelo oculto de Markov (MOM), el modelo de referencia habitual en estos casos (apndice A), con igual nmero de parmetros. e u a Los resultados son tambin similares a los de otros enfoques neuronales que, e sin embargo, necesitan textos completamente etiquetados para el entrenamiento, necesidad superada con el planteamiento aqu propuesto.
10.2. CONTRIBUCIONES DE ESTA TESIS
137
10.2. Contribuciones de esta tesis

Las principales aportaciones de esta tesis son las siguientes: 1. Los resultados obtenidos con el FKED en las distintas tareas predictivas abordadas en la tesis conrman los de otros trabajos: el FKED supera en muchos aspectos al descenso por el gradiente como algoritmo de entrenamiento en l nea de RNR. Todo trabajo con RNR, especialmente aquellos que estudian procesos que se desarrollan en l nea, deber considerar el FKED como algoritmo de entrenamiento a en los experimentos. 2. En particular, el FKED ha llevado un poco ms all la capacidad de a a la red LSTM para manejar adecuadamente las dependencias a largo plazo. Si bien los resultados previos sobre el lenguaje sensible al contexto an bn cn obtenidos mediante el descenso por el gradiente superaban ampliamente los de otras RNR, el FKED supera a ambas tanto en velocidad de aprendizaje como en capacidad de generalizacin: soo lo con observar secuencias del lenguaje con n [1, 10], se consiguen generalizaciones para valores de n por encima de 1000. 3. Se ha aplicado la red LSTM por primera vez a una tarea de prediccin o completamente en l nea. Los trabajos anteriores hab utilizado, coan mo mucho, un entrenamiento en l nea por secuencias (cap tulo 4). La red LSTM es adecuada para el entrenamiento en l nea puro: la adicin o de la compuerta de olvido permite que el estado de las celdas de la red no aumente sin control, por muy larga que sea la secuencia procesada de forma continua. 4. Aunque no es la primera vez que una RNR se aplica a la desambiguacin categorial, s que es la primera vez que el problema se plantea o desde un punto de vista predictivo. Es ms, se trata del primer enfoque a neuronal (recurrente o no) que no necesita un corpus completamente etiquetado para el entrenamiento, aspecto este que lo acerca ms a a modelos como los MOM. 5. Las alternativas recurrentes usadas con anterioridad para realizar la prediccin sobre secuencias de voz se basaban en la red neuronal recuo rrente en cascada (RNRC), un modelo especializado para este tipo de tarea (cap tulo 3). En esta tesis se ha estudiado si modelos de RNR ms sencillos son capaces de mantener el rendimiento de la RNRC. Los a resultados, sin embargo, son poco alentadores y remarcan las conclusiones de otros trabajos que han constatado la superioridad de modelos simples basados en una ventana temporal de entradas sobre las RNR a la hora de procesar algunas secuencias numricas. e
138
10.3. Sugerencias para prximos trabajos o

Algunos aspectos que merecen un estudio ms detallado en prximos a o trabajos son los siguientes: 1. Los valores de los parmetros del FKED usados en los experimentos a se determinaron a partir de una serie de experimentos preliminares. Para paliar esta bsqueda emp u rica de los valores ms adecuados, debe a realizarse un estudio sistemtico sobre la inuencia de los distintos a parmetros del FKED en el rendimiento del algoritmo. a 2. En el cap tulo 6 se ha estudiado la prediccin en l o nea sobre secuencias generadas por mquinas de estados nitos. Adems, en el apartaa a do 5.1.6 se ha visto las principales diferencias del enfoque all seguido con la inferencia gramatical clsica con RNR. a Hay varios mtodos propuestos (Giles et al. 1992) para extraer moe delos de estados nitos a partir del conocimiento simblico adquirido o por una RNR cuando ha sido entrenada para inferir lenguajes regulares mediante ese enfoque clsico. Deber estudiarse si todav es a a a posible extraer algn modelo de estados nitos cuando el aprendizaje u se realiza en l nea y si es comparable al extra fuera de l do nea. Aunque la convergencia de la RNR a las probabilidades reales parece dif de cil demostrar en este caso, puede estudiarse emp ricamente si la presencia reiterada de una subsecuencia hace que el estado de la red alcance un punto jo tras procesar dicha subsecuencia o, al menos, una regin del espacio de estados desde la que se obtengan salidas similares. o La separacin en regiones del espacio de estados puede realizarse, por o ejemplo, mediante cuantizacin vectorial sobre la secuencia de activao nansk y Beukov 2001). Un estudio terico ciones del estado (Cer y n s a o deber determinar si la salida de la red puede todav considerarse en a a el caso de la prediccin en l o nea como una buena aproximacin a las o probabilidades reales. 3. El proceso de extracin de un modelo de estados nitos discutido en o el punto anterior tambin deber aplicarse al modelo aprendido en el e a caso de la desambiguacin categorial (cap o tulo 8) con vistas a formular el conjunto de reglas de etiquetado aprendidas por el sistema. 4. Tambin debe evaluarse la inuencia del tamao del corpus de entree n namiento en el rendimiento del desambiguador categorial, as como la adecuacin de la segunda, tercera, etc. neurona de salida con mayor o activacin: corresponde a una categor vlida para la palabra? o a a 5. En cuanto a la prediccin de secuencias textuales, se puede estudiar o el rendimiento de la red LSTM aplicada a esta tarea para comprobar
10.3. SUGERENCIAS PARA PROXIMOS TRABAJOS
139
si supera los resultados de las RNR tradicionales, as como analizar la solucin alcanzada por el modelo. o 6. En cuanto a la inferencia del lenguaje an bn cn con la red LSTM, deber a considerarse otros lenguajes sensibles al contexto, adems de tener en a cuenta tambin muestras negativas. e 7. No hay trabajos que intenten extraer el modelo (un autmata nito o o un autmata de pila, por ejemplo) aprendido por la red LSTM cuano do se aplica a la inferencia de lenguajes. Esta labor debe llevarse a cabo, adems de realizar un estudio profundo sobre las clases de lena guajes aprendibles con LSTM, una caracterizacin general mucho ms o a importante que el hecho de que pueda aprender uno u otro lenguaje determinado. 8. El rendimiento de las redes LSTM a la hora de manejar dependencias a largo plazo puede compararse con otras alternativas como los MOM jerrquicos (Fine et al. 1998). a 9. El modelo LSTM intenta conseguir un ujo de error constante a travs e de los carruseles de error constante (CEC) para superar el problema del gradiente evanescente y gestionar adecuadamente las dependencias a largo plazo (cap tulo 4). A ello contribuyen tanto la conguracin o topolgica del modelo como la forma de calcular las derivadas parciales o de la funcin de error. o Un estudio interesante es determinar la importancia de estas derivadas a la hora de considerar las dependencias a largo plazo. Para ello se puede aplicar un algoritmo como Alopex (vase el apartado 4.10), que e no se basa en el gradiente, y evaluar los resultados obtenidos. 10. Tambin puede ser interesante estudiar si el hecho de que un bloque de e memoria de la red LSTM pueda tener ms de una celda aporta alguna a ventaja al modelo. Aparentemente, al compartir todas las celdas de un bloque de memoria las mismas compuertas, las celdas deber an terminar adoptando un rol similar y resultar incluso redundantes. 11. Recientemente se han propuesto otras alternativas distintas al ltro de Kalman extendido (FKE) para realizar el ltrado de sistemas no lineales (Julier y Uhlmann 1997; Merwe et al. 2000) que parecen mejorar los resultados del FKE. Puede considerarse su aplicacin a algunas o de las tareas consideradas en esta tesis.
A. MODELOS DE MARKOV PARA EL ETIQUETADO CATEGORIAL
En este apndice se muestra la forma de ajustar los parametros de un e modelo oculto de Markov de forma que se pueda realizar la desambiguacin categorial de las palabras de una oracin. Los modelos ocultos o o de Markov se usan en los experimentos del cap tulo 8.
Un modelo oculto de Markov (MOM) (Rabiner 1989) es un sistema dinmico de tiempo discreto capaz de emitir una secuencia de salidas oba servables. Un MOM se dene como un modelo de estados de la forma = (S, V, A, B, ), donde S es el conjunto de estados, V es el conjunto de salidas observables, A son las probabilidades de transicin entre estados, o B son las probabilidades de que cada estado emita los posibles elementos observables y dene las probabilidades de que el sistema comience desde cada uno de los estados de S. El sistema emite una salida cada vez que llega a un estado tras realizar una transicin. o Las aplicaciones de los MOM son mltiples. Si logramos descubrir el u MOM ms veros a mil para una determinada secuencia de observaciones, tendremos un modelo del proceso subyacente; de esto se encargan algoritmos como el de Baum y Welch, que discutiremos a continuacin. Por otro lao do, es posible obtener la probabilidad bajo un MOM determinado de una secuencia de observaciones y, lo que muchas veces es an ms importante, u a encontrar la secuencia de estados que produce el camino de mxima verosia militud para una secuencia de observaciones dada. La secuencia de estados puede interpretarse como una explicacin de la observacin si cada estado o o tiene un signicado diferenciado; para encontrarla existen algoritmos como el de Viterbi. En este apndice se presenta en detalle,1 para paliar la ausencia de dese cripciones adecuadas en la bibliograf una adaptacin del algoritmo de a, o
Los contenidos de este apndice estn basados en una comunicacin personal de los e a o Drs. Rafael C. Carrasco y Mikel L. Forcada.
1
141
142
Baum y Welch que facilita la desambiguacin categorial y se da una breo ve justicacin matemtica de la misma siguiendo la notacin de Rabiner o a o (1989).
A.1. Aplicacin al etiquetado categorial o

A.1.1. Simplicaciones Sea el modelo oculto de Markov = (S, V, A, B, ) con estados S = {s1 , s2 , . . . , sN }, salidas V = {v1 , v2 , . . . , vM }, probabilidades de transicin o A = {aij } (i, j = 1 . . . , N ), probabilidades de emisin B = {bj (vk )} (j = o 1, . . . , N , k = 1, . . . M ) y probabilidades iniciales = {i } (i = 1, . . . , N ). Cuando este tipo de modelos se usan para etiquetar un texto podemos suponer que cada palabra ha sido substituida (usando un diccionario o lxico) e por la clase de ambigedad o conjunto de etiquetas que admite esa palau bra. En este caso, cada estado del MOM se corresponde con una etiqueta lxica y el conjunto de salidas est formado por todas las posibles clases e a de ambigedad (los elementos de V son subconjuntos de S). Por ello, usau remos indistintamente las nociones de palabra y clase de ambigedad para u referirnos a las salidas del modelo oculto. Adems, podemos hacer las siguientes suposiciones: a 1. Que la secuencia de texto O1 . . . OT que queremos analizar siempre viene precedida de una palabra no ambigua O0 = {I}. Parece razonable que I sea la etiqueta que representa el nal de oracin.2 o 2. Que el texto acaba en una palabra no ambigua OT = {F }. Aqu es si cabe ms razonable tomar F como el punto nal de las oraciones, a dado que normalmente tanto los textos de entrenamiento como los de prueba contienen frases completas. 3. Que toda clase de ambigedad contiene, al menos, la etiqueta correcta. u Por ejemplo, desde el estado asociado a XVB no se puede generar una clase {XJJ, XN N }. Consiguientemente, una clase no ambigua {X} solo puede ser generada por el estado correspondiente X. A.1.2. Probabilidades hacia adelante El hecho de aadir la clase no ambigua O0 = {I} evita que i sea simplen mente 1 para la categor de la primera palabra del corpus de entrenamiento a
Adems, as el etiquetado de las palabras de una oracin determinada no depende de a o si la oracin se encuentra al principio del texto o en cualquier otra parte del mismo. o
2
A.1. APLICACION AL ETIQUETADO CATEGORIAL
143
y cero para las dems. Esto no parece adecuado: primero, porque otro texto a tambin correcto podr empezar por otra categor y segundo, porque no e a a; tendr mucho sentido realizar un entrenamiento, ya que se puede jar el a valor de i directamente. Teniendo en cuenta que i = I,si y bi ({I}) = I,si , donde es la delta de Kronecker denida en (4.3), podemos rescribir las ecuaciones (19) y (20) de Rabiner (1989) empezando en t = 0 como sigue: 0 (i) = I,si y, para t = 1, . . . , T ,
N
(A.1)
t (i) =
j=1
t1 (j) aji bi (Ot )
(A.2)
De esta manera podemos prescindir de las probabilidades iniciales. Esta forma es, adems, ms semejante a la de las probabilidades hacia atrs del a a a apartado siguiente. A.1.3. Probabilidades hacia atrs a De forma anloga, las variables hacia atrs, correspondientes a las ecuaa a ciones (24) y (25) de Rabiner (1989), son: T (i) = 1 y, para t = 1, . . . , T ,
N
(A.3)
t1 (i) =
j=1
aij bj (Ot ) t (j)
(A.4)
A.1.4. Otras probabilidades La probabilidad de una secuencia O = O1 . . . OT se puede calcular a a partir de las probabilidades hacia adelante y hacia atrs de la siguiente a forma:
N
P (O|) =
i=1
t (i)t (i)
(A.5)
donde t puede elegirse libremente en {0, 1, . . . , T }. En particular, P (O|) = 0 (I) = T (F ) (A.6)
144
La segunda igualdad es consecuencia de la hiptesis 2 y de que podamos o escribir directamente T (i) = 0 si i = F siempre que OT = {F }. El nmero esperado de veces que se pasa por el estado i al generar la u secuencia O se dene como:
T 1
i =
t=0
t (i)
(A.7)
donde (Rabiner 1989, ec. 27): t (i) = Por tanto, i = 1 P (O|)

T 1
t (i)t (i) P (O|)
(A.8)
t (i)t (i)
t=0
(A.9)
Para un texto completo (que empieza y acaba por nal de frase, esto es I = F ) se cumple que 0 (i)0 (i) = T (i)T (i) = P (O|) por lo que, trivialmente, podemos desplazar la suma temporal como sigue:
T 1 T
t (i)t (i) =
t=0 t=1
t (i)t (i)
(A.10)
Este resultado (que nos resultar util ms adelante) puede entenderse de a a forma intuitiva: el estado nal de frase se visita una vez al principio del texto y otra al nal; como solo tenemos que contar una, da igual cul contemos. a Esto hace que podamos cambiar algunas de las sumas temporales de 1 a T que aparecen en Rabiner (1989) por sumas de 0 a T 1. A continuacin denimos, por un lado, el nmero esperado de veces que o u el modelo pasa del estado i al estado j,
T 1
ij =
t=0
t (i, j)
(A.11)
donde (Rabiner 1989, ec. 37): t (i, j) = As , ij = 1 P (O|)

T 1
t (i)aij bj (Ot+1 )t+1 (j) P (O|)
(A.12)
t (i)aij bj (Ot+1 )t+1 (j)

t=0
(A.13)
145
Por otro lado, denimos el nmero esperado de veces que el modelo pasa u por el estado j mientras se observa el s mbolo vk como:
T 1
jk =
t=0
t (j, k)
(A.14)
donde: t (j, k) = Es decir, jk = 1 P (O|)

T 1
t (j)t (j)vk ,Ot P (O|)
(A.15)
t (j)t (j)vk ,Ot

t=0
(A.16)
Para la depuracin del programa puede ser util tener en cuenta que: o
M N
i =
k=1
ik =
j=1
ij
(A.17)
El clculo de i , ij y jk requiere realizar dos pasadas sobre el texto: a una hacia adelante y otra hacia atrs. En la primera se calculan todos los a t (i) y la verosimilitud del texto P (O|) y en la segunda se calculan i , ij y jk incrementalmente, por lo que basta con almacenar t+1 (j) en cada iteracin. o A.1.5. Nuevos parmetros a Con las suposiciones anteriores, obtenemos las siguientes frmulas de o Baum y Welch para la actualizacin de los parmetros: o a aij = y bj (k) = jk j (A.19) ij i (A.18)
donde se ha hecho uso de la adicin de la clase de ambigedad inicial para o u que los denominadores sean iguales, en contraste con las ecuaciones (40b) y (40c) de Rabiner (1989), en las que estos denominadores son diferentes.
146
A.1.6. Segmentacin o Cada vez que en el texto que se est etiquetando aparece una palabra no a ambigua, el modelo de Markov oculto solo puede estar en el estado correspondiente a su etiqueta (hiptesis 3). Esto permite reorganizar el clculo o a de manera muy eciente como ya se sugiere en el trabajo de Cutting et al. (1992), ya que no es preciso mantener en memoria todo el texto sino solo la porcin de texto entre dos categor no ambiguas (ambas inclusive) y o as tratarla como si fuese un texto completo. Supongamos que el texto est segmentado en G segmentos o grupos. a Cada segmento g empieza en t = ig y termina en t = fg , con fg = ig+1 y Tg = fg ig , y tiene una palabra inicial que pertenece a la clase no ambigua {Ig }, una palabra nal que pertenece a la clase no ambigua {Fg }, y cero o ms palabras, todas ambiguas, situadas entre ellas. Estos segmentos son a normalmente bastante cortos. Cada uno de los valores esperados ij , jk y i se pueden calcular como una suma para todos los segmentos:
G
ij =
g=1
ij
(g)
(A.20)
jk =
g=1
jk
(g)
(A.21)
i =
g=1
(g)
(A.22)
y el clculo para cada segmento se puede realizar como si se tratase de un a texto independiente, usando solo informacin local al mismo. o Describiremos con algn detalle el clculo de ij .3 Es sencillo comprou a bar que: ig (i) = P (O1 . . . Oig )i,Ig y que: P (O1 . . . OT ) = P (O1 . . . Ofg )fg (Fg )
3
(g)
(A.23)
(A.24)
El clculo de jk y i a
(g)
(g)
es completamente anlogo. a
147
Si denimos, para i, j = 1 . . . N ,
g tig (i) =
t (i) ig (Ig ) t (j) fg (Fg )
(A.25)
y
g tig (j) =
(A.26)
se sigue que:
(g) ij
1 = g P
Tg 1 g g (i)aij bj (Oig + +1 ) +1 (j) =0
(A.27)
ecuacin completamente anloga a la A.13 excepto por el detalle de que P g o a no es P (Oig . . . Ofg ), porque en general Ig = Fg , sino: P (g) = P (O|) g = Tg (Fg ) ig (Ig )fg (Fg ) (A.28)
Las nuevas probabilidades hacia adelante g y las variables hacia atrs g a de cada grupo se denen recursivamente de manera similar a las del texto completo:
g (i) = j=1 g 0 (i) = i,Ig g (i) = j=1 g Tg (i) = 1 j [1, N ] g aij +1 (j)bj (Oig + +1 ) g 1 (j)aji bi (Oig + )
(A.29)
(A.30) (A.31)
(A.32)
Las ecuaciones (A.9) y (A.16) se convierten anlogamente en: a

(g) i
1 = g P
Tg 1
Tg 1 g g (i) (i) =0
(A.33)
y
(g) jk
1 = g P
g g (j) (j)vk ,Oig + . =0
(A.34)
Lo dicho al nal del ep grafe A.1.4 sobre la implementacin del clculo o a (g) (g) de i , ij y jk se puede adaptar fcilmente para el clculo de i , ij y a a jk .
(g)
148
A.1.7. Inicializacin o El algoritmo de Baum y Welch se puede inicializar, en ausencia de todo conocimiento, con los siguientes valores: aij = y bj (k) =
1 Nj
1 N
(A.35)
si sj vk si no
(A.36)
donde Nj es el nmero de clases de ambigedad en las que puede manifesu u tarse la etiqueta sj , es decir, card{v : sj v}. Esta inicializacin es la utilizada en los experimentos del cap o tulo 8.
INDICE DE S IMBOLOS IMPORTANTES
d[t] i,j X Y E[t] i gC gL gM gT gX gY gZ K[t] i nC nM nM nU nX
Tasa de aprendizaje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Salida deseada de la RNR en el instante t . . . . . . . . . Funcin delta de Kronecker . . . . . . . . . . . . . . . . . . . . . . . . o Seal de error retropropagada de BPTT . . . . . . . . . . . n Seal de error de BPTT . . . . . . . . . . . . . . . . . . . . . . . . . . . n Error de la RNR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Momento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Activacin de la compuerta de salida del i-simo bloo e que de memoria de la red LSTM . . . . . . . . . . . . . . . . . . . Funcin de activacin de las compuertas de la red o o LSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Funcin log o stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Funcin de activacin a la salida de una celda de la o o red LSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Funcin tangente hiperblica . . . . . . . . . . . . . . . . . . . . . . o o Funcin de siguiente estado de una RNR . . . . . . . . . . o Funcin de salida de una RNR . . . . . . . . . . . . . . . . . . . . o Funcin de activacin a la entrada de una celda de la o o red LSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Matriz de ganancia del FK . . . . . . . . . . . . . . . . . . . . . . . . Activacin de la compuerta de olvido del i-simo bloo e que de memoria de la red LSTM . . . . . . . . . . . . . . . . . . . Nmero de celdas de memoria de la red LSTM . . . . u Nmero de bloques de memoria de la red LSTM . . . u Nmero de mdulos de la RNRC . . . . . . . . . . . . . . . . . . u o Nmero de entradas de la RNR . . . . . . . . . . . . . . . . . . . . u Nmero de neuronas de estado de la RNR . . . . . . . . . u 149
41 36 38 46 46 36 41 28 28 11 28 12 15 15 28 49 30 26 26 30 15 15
150
INDICE DE SIMBOLOS IMPORTANTES
nY P [t] i qI Q Q[t] R[t] u[t] w[t] x[t] xij y[t] z 1
Nmero de neuronas de salida de la RNR . . . . . . . . . . u Matriz de covarianza del error a posteriori del FK . Activacin de la compuerta de entrada del i-simo o e bloque de memoria de la red LSTM . . . . . . . . . . . . . . . Estado inicial de una FSEF . . . . . . . . . . . . . . . . . . . . . . . . Conjunto de estados de una FSEF . . . . . . . . . . . . . . . . . Matriz de covarianza del error de la ecuacin del proo ceso del FK . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Matriz de covarianza del error de medicin del FK . o Entrada de la RNR en el instante t . . . . . . . . . . . . . . . . Estado del sistema en el FK . . . . . . . . . . . . . . . . . . . . . . . Estado de la RNR en el instante t . . . . . . . . . . . . . . . . . Estado interno del CEC de la i-sima celda del ie simo bloque de memoria de la red LSTM . . . . . . . . . e Salida de la RNR en el instante t . . . . . . . . . . . . . . . . . . Clula de retardo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e
15 49 27 84 84 48 48 15 48 15 28 15 20
INDICE DE ABREVIATURAS
BPTT CEC DG FIR FK FKE FKED FKEG FSEF GP IIR LMS LSTM MOM NARX RC RLS RNR RNRC RPR RRS RTR RTRL TDNN
Retropropagacin a travs del tiempo . . . . . . . . . . . . . . o e Carrusel de error constante . . . . . . . . . . . . . . . . . . . . . . . . Algoritmo de descenso por el gradiente . . . . . . . . . . . . Respuesta nita al impulso . . . . . . . . . . . . . . . . . . . . . . . . Filtro de Kalman lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . Filtro de Kalman extendido . . . . . . . . . . . . . . . . . . . . . . . Filtro de Kalman extendido desacoplado . . . . . . . . . . . Filtro de Kalman extendido global . . . . . . . . . . . . . . . . . Fuente secuencial de estados nitos . . . . . . . . . . . . . . . . Ganancia de prediccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . o Respuesta innita al impulso . . . . . . . . . . . . . . . . . . . . . . M nimos cuadrados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Memoria a corto y largo plazo . . . . . . . . . . . . . . . . . . . . . Modelo oculto de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . Red NARX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Razn de compresin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o o M nimos cuadrados recursivo . . . . . . . . . . . . . . . . . . . . . . Red neuronal recurrente de tiempo discreto . . . . . . . . Red neuronal recurrente en cascada . . . . . . . . . . . . . . . . Red parcialmente recurrente . . . . . . . . . . . . . . . . . . . . . . . Red recurrente simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Red totalmente recurrente . . . . . . . . . . . . . . . . . . . . . . . . . Aprendizaje recurrente en tiempo real . . . . . . . . . . . . . Red neuronal de retardos temporales . . . . . . . . . . . . . .
44 25 126 24 48 50 53 53 84 127 24 127 25 141 24 88 127 14 30 19 20 21 42 24
151
BIBLIOGRAF IA
Alquezar, R. y A. Sanfeliu (1994). Inference and recognition of regular grammars by training recurrent neural networks to learn the next-symbol prediction task, en F. Casacuberta y A. Sanfeliu, coordinadores, Advances in pattern recognition and aplications, World Scientic. Alquezar, R. y A. Sanfeliu (1995). An algebraic framework to represent nite state automata in single-layer recurrent neural networks, Neural Computation, 7(5), 931949. Aussem, Alex, Fionn Murtagh y Marc Sarazin (1995). Dynamical recurrent neural networks towards environmental time series prediction, International Journal Neural Systems, 6, 145170. Baltersee, J. y J. A. Chambers (1998). Non-linear adaptive prediction of speech signals using a pipelined recurrent network, IEEE Transactions on Signal Processing, 46(8). Barnwell, T. P., K.Nayebi y C. H. Richardson (1996). Speech coding: a computer laboratory textbook, Georgia Tech digital signal processing laboratory series, John Wiley & Sons. Bell, T. C., J. G. Cleary y I. H. Witten (1990). Text compression, Prentice-Hall. Bengio, Y., P. Simard y P. Frasconi (1994). Learning long-term dependencies with gradient descent is dicult, IEEE Transactions on Neural Networks, 5(2), 157166. Benvenuto, N., G. Bertocci y W. R. Daumer (1987). The 32-kb/s ADPCM coding standard, AT&T Technical Journal, 2, 270280. Bianchini, M., M. Gori y M. Maggini (1994). On the problem of local minima in recurrent neural networks, IEEE Transactions on Neural Networks, 5(2), 167177. Birgmeier, M. (1996). Nonlinear prediction of speech signals using radial basis function networks, en Proceedings of the European Signal Processing Conference. 153
154
BIBLIOGRAFIA
Blair, A. y J. B. Pollack (1997). Analysis of dynamical recognizers, Neural Computation, 9(5), 11271142. Boden, M. y J. Wiles (2000). Context-free and context-sensitive dynamics in recurrent neural networks, Connection Science, 12(3). Boden, M. y J. Wiles (2002). On learning context free and context sensitive languages, IEEE Transactions on Neural Networks, 13(2), 491 493. Brill, E. (1992). A simple rule-based part-of-speech tagger, en Proceedings Third Conference on Applied Natural Language Processing. Bulsari, A. B. y H. Saxen (1995). A recurrent network for modeling noisy temporal sequences, Neurocomputing, 7(1), 2940. Burrows, M. y D. J. Wheeler (1994). A block-sorting lossless data compression algorithm, informe tcnico 124, Digital Systems Research e Center. Carrasco, R. C., M. L. Forcada y L. Santamar (1996). Inferring a stochastic regular grammars with recurrent neural networks, en Grammatical inference: learning syntax from sentences, vol. 1147 de Lecture Notes in Articial Intelligence, pgs. 274281, Springer-Verlag, Berl a n. Carrasco, R. C., M. L. Forcada, M. A. Valdes-Munoz y R. P. Neco (2000). Stable-encoding of nite-state machines in discrete-time recurrent neural nets with sigmoid units, Neural Computation, 12(9), 21292174. Castano, M. A., E. Vidal y F. Casacuberta (1995). Finite state automata and connectionist machines: a survey, en New trends in neural computation, vol. 930 de Lecture Notes in Computer Science, pgs. 433 a 440, Springer-Verlag. Cauwenberghs, G. (1993). A fast-stochastic error-descent algorithm for supervised learning and optimization, en S. J. Hanson, J. D. Cowan y C. L. Giles, coordinadores, Advances in Neural Information Processing Systems, vol. 5, pgs. 244251, Morgan Kaufmann. a s Cernansky, M. y L. Benukova (2001). Finite-state Reber automaton and the recurrent neural networks trained in supervised and unsupervised manner, en G. Dorner, H. Bischof y K. Hornik, coordinadores, Proceedings of the International Conference on Articial Neural Networks, vol. 2130 de Lecture Notes in Computer Science, pgs. 737742, Springera Verlag, Berl n.
BIBLIOGRAFIA
155
Chalup, S. y A. Blair (1999). Hill climbing in recurrent neural networks for learning the an bn cn language, en Proceedings of the 6th Conference on Neural Information Processing, pgs. 508513. a Chan, L. W. y C. C. Szeto (1999). Training recurrent network with block-diagonal approximated Levenberg-Marquardt algorithm, en Proceedings of the International Joint Conference on Neural Networks. Chang, W. F. y M. W. Mak (1999). A conjugate gradient learning algorithm for recurrent neural networks, Neurocomputing, 24, 173189. Charniak, E. (1993). Statistical language learning, MIT Press, Cambridge. Cid-Sueiro, J., A. Artes-Rodriguez y A. R. Figueiras-Vidal (1994). Recurrent radial basis function networks for optimal symbol-by-symbol equalization, Signal Proc., 40, 5363. Cleeremans, A., D. Servan-Schreiber y J. L. McClelland (1989). Finite state automata and simple recurrent networks, Neural Computation, 1(3), 372381. Cover, T. M. y J. A. Thomas (1991). Elements of information theory, John Wiley and Sons, Nueva York. Cutting, D., J. Kupiec, J. Pedersen y P. Sibun (1992). A practical part-of-speech tagger, en Proceedings of Third Conference on Applied Natural Language Processing, pgs. 133140. a Davies, R. B. (1994). Writing a matrix package in C++, en Second Annual Object-Oriented Numerics Conference, pgs. 207213. a Elman, J. L. (1990). Finding structure in time, Cognitive Science, 14, 179211. Elman, J. L. (1991). Distributed representations, simple recurrent networks, and grammatical structure, Machine Learning, 7, 195225. Feldkamp, L. A. y G. V. Puskorius (1994). Training controllers for robustness: multi-stream DEKF, en IEEE International Conference on Neural Networks, pgs. 23772382. a Fine, S., Y. Singer y N. Tishby (1998). The hierarchical hidden Markov model: analysis and applications, Machine Learning, 32(1), 4162. Forcada, M. L. (2001). Corpus-based stochastic nite-state predictive text entry for reduced keyboards: application to Catalan, en Procesamiento del Lenguaje Natural, vol. 27, pgs. 6570. a
156
BIBLIOGRAFIA
Forcada, M. L. y R. C. Carrasco (1995). Learning the initial state of a second order recurrent neural network during regular-language inference, Neural Computation, 7, 923930. Forcada, M. L. y R. C. Carrasco (2001). Finite-state computation in analog neural networks: steps towards biologically plausible models?, en S. Wermter, J. Austin y D. Willshaw, coordinadores, Emergent Neural Computational Architectures based on Neuroscience, vol. 2036 de Lecture Notes in Computer Science, pgs. 482486, Springer-Verlag. a Forcada, M. L. y M. Gori (2001). Neural nets, recurrent, en J. G. Webster, coordinador, Wiley Encyclopedia of Electrical and Electronics Engineering, John Wiley & Sons. Forcada, Mikel L., coordinador (2002). Neural networks: automata and formal models of computation, indito, disponible en http://www.dlsi. e ua.es/~mlf/nnafmc/. Gers, F. A., D. Eck y J Schmidhuber (2001). Applying LSTM to time series predictable through time-window approaches, en Proceedings of the International Conference on Articial Neural Networks. Gers, F. A., J. A. Perez-Ortiz, D. Eck y J. Schmidhuber (2002a). DEKFLSTM, en M. Verleysen, coordinador, Proceedings of the European Symposium on Articial Neural Networks, pgs. 369376, D-side a Publications. Gers, F. A., J. A. Perez-Ortiz, D. Eck y J. Schmidhuber (2002b). Learning context sensitive languages with LSTM trained with Kalman lters, en Proceedings of the International Conference on Articial Neural Networks, Lecture Notes in Computer Science, Springer-Verlag, Berl n, aceptado. Gers, F. A. y J. Schmidhuber (2001). LSTM recurrent networks learn simple context free and context sensitive languages, IEEE Transactions on Neural Networks, 12(6), 13331340. Gers, F. A., J. Schmidhuber y F. Cummins (1999). Learning to forget: continual prediction with LSTM, en Proceedings of the International Conference on Articial Neural Networks, pgs. 850855. a Gers, F. A., J. Schmidhuber y F. Cummins (2000). Learning to forget: continual prediction with LSTM, Neural Computation, 12(10), 2451 2471. Giles, C. L., C. B. Miller, D. Chen, H. H. Chen, G. Z. Sun y Y. C. Lee (1992). Learning and extracting nite state automata with secondorder recurrent neural networks, Neural Computation, 4(3), 393405.
BIBLIOGRAFIA
157
Goudreau, M. W., C. L. Giles, S. T. Chakradhar y D. Chen (1994). First-order vs. second order single layer recurrent neural networks, IEEE Transactions on Neural Networks, 5(3), 511513. Hallas, M. y G. Dorffner (1998). A comparative study on feedforward and recurrent neural networks in time series prediction using gradient descent learning, en R. Trappl, coordinador, Cybernetics and Systems 98, Proceedings of 14th European Meeting on Cybernetics and Systems Research, pgs. 644647. a Haykin, S. (1999). Neural networks: a comprehensive foundation, PrenticeHall, New Jersey, 2.a ed. Haykin, S., coordinador (2001). Kalman ltering and neural networks, Wiley. Haykin, S. y L. Li (1995). Non-linear adaptive prediction of nonstationary signals, IEEE Transactions on Signal Processing, 43(2), 526 535. Hertz, J., A. Krogh y R. G. Palmer (1991). Introduction to the theory of neural computation, Addison-Wesley. Hilborn, R. C. (2000). Chaos and nonlinear dynamics: an introduction for scientists and engineers, Oxford University Press. Hochreiter, S., Y. Bengio, P. Frasconi y J. Schmidhuber (2001). Gradient ow in recurrent nets: the diculty of learning long-term dependencies, en S. C. Kremer y J. F. Kolen, coordinadores, A eld guide to dynamical recurrent neural networks, IEEE Press. Hochreiter, S. y J. Schmidhuber (1997). Long short-term memory, Neural Computation, 9(8), 17351780. Hopcroft, J. E. y J. D. Ullman (1979). Introduction to automata theory, languages and computation, Addison-Wesley. Horne, B. G. y D. R. Hush (1996). Bounds on the complexity of recurrent neural network implementations of nite state machines, Neural networks, 9(2), 243252. Julier, S. J. y J. K. Uhlmann (1997). A new extension of the Kalman lter to nonlinear systems, en Proceedings of AeroSense, the 11th International Symposium on Aerospace/Defence Sensing, Simulation and Controls. Kalman, R. E. (1960). A new approach to linear ltering and prediction problems, Transaction of the ASME Journal of Basic Engineering, pgs. 3545. a
158
BIBLIOGRAFIA
Kechriotis, G., E. Zervas y E. S. Manolakos (1994). Using recurrent neural networks for adaptive communication channel equalization, IEEE Trans. on Neural Networks, 5(2), 267278. Kleene, S. C. (1956). Representation of events in nerve nets and nite automata, en C. E. Shannon y J. McCarthy, coordinadores, Automata studies, Princeton University Press. Kolen, J. F. y S. C. Kremer, coordinadores (2001). A eld guide to dynamical recurrent networks, IEEE Press. Kremer, S. C. (1997). Parallel stochastic grammar induction, en Proceedings International Conference on Neural Networks, pgs. 612616. a Long, P. M., A. I. Natsev y J. S. Vitter (1999). Text compression via alphabet re-representation, Neural Networks, 12, 755765. Ma, Q. y H. Isahara (1997). Part-of-speech tagging of Thai corpus with the logically combined neural networks, en Proceedings of the Natural Language Processing Pacic Rim Symposium, pgs. 537540. a Ma, Q., M. Murata, M. Utiyama, K. Uchimoto y H. Isahara (1999). Part of speech tagging with mixed approaches of neural networks and transformation rules, en Workshop on Natural Language Processing and Neural Networks, Beijing, China. Mahoney, M. V. (2000). Fast text compression with neural networks, en 13th International FLAIRS Conference, Orlando, Florida. Manning, C. D. y H. Schutze (1999). Foundations of statistical natural language processing, MIT Press. Marcus, M. P., B. Santorini y M. A. Marcinkiewicz (1993). Building a large annotated corpus of English: the Penn Treebank, Computational Linguistics, 19, 313330. Marques, N. C. y G. P. Lopes (1996). Using neural nets for Portuguese part-of-speech tagging, en Proceedings of the Fifth International Conference on The Cognitive Science of Natural Language Processing, Dublin City University, Ireland. Mart M. A., M. Moran y M. Reyes (1995). Iniciacin al caos: sisn, o temas dinmicos, S a ntesis, Madrid. McCluskey, P. G. (1993). Feedforward and recurrent neural networks and genetic programs for stock market and time series forecasting, informe tcnico CS-93-36, Brown University. e
BIBLIOGRAFIA
159
McCulloch, W. S. y W. H. Pitts (1943). A logical calculus of the ideas immanent in nervous activity, Bulletin of Mathematical Biophysics, pgs. a 115133. Merwe, R., A. Doucet, N. de Freitas y E. Wan (2000). The unscented particle lter, en Advances in Neural Information Processing Systems, vol. 13, MIT Press. Minsky, M. L. y S. A. Papert (1969). Perceptrons, MIT Press, Cambridge. Mozer, M. C. (1994). Neural network music composition by prediction: exploring the benets of psychoacoustic constraints and multiscale processing, Connection Science, 6, 247280. Narendra, K. S. y K. Parthasarathy (1990). Identication and control of dynamical systems using neural networks, IEEE Transactions on Neural Networks, 1, 427. Nelson, M. (1991). Arithmetic coding + statistical modeling = data compression, Dr. Dobbs Journal. Nelson, M. y J.-L. Gailly (1995). The data compression book, M&T Books, New York, 2.a ed. Omlin, C. W. y C. L. Giles (1996). Constructing deterministic nitestate automata in recurrent neural networks, Journal of the ACM, 43(6), 937972. Oppenheim, A. V. y R. W. Schafer (1989). Discrete-time signal processing, Prentice-Hall. Ortiz Fuentes, J. D. y M. L. Forcada (1997). A comparison between recurrent neural architectures for digital equalization, en International Conference on Acoustics, Speech and Signal Processing, vol. 4, pgs. 3281 a 3284. Pearlmutter, B. A. (1995). Gradient calculations for dynamic recurrent neural networks: a survey, IEEE Transactions on Neural Networks, 6(5), 12121228. Perez-Ortiz, J. A., J. Calera-Rubio y M. L. Forcada (2001a). A comparison between recurrent neural architectures for real-time nonlinear prediction of speech signals, en D. J. Miller, T. Adali, J. Larsen, M. Van Hulle y S. Douglas, coordinadores, Neural Networks for Signal Processing XI, Proceedings of the 2001 IEEE Neural Networks for Signal Processing Workshop, pgs. 7381, IEEE Signal Processing Society. a
160
BIBLIOGRAFIA
Perez-Ortiz, J. A., J. Calera-Rubio y M. L. Forcada (2001b). Online symbolic-sequence prediction with discrete-time recurrent neural networks, en G. Dorner, H. Bischof y K. Hornik, coordinadores, Proceedings of the International Conference on Articial Neural Networks, vol. 2130 de Lecture Notes in Computer Science, pgs. 719724, Springera Verlag, Berl n. Perez-Ortiz, J. A., J. Calera-Rubio y M. L. Forcada (2001c). Online text prediction with recurrent neural networks, Neural Processing Letters, 14(2), 127140. Perez-Ortiz, J. A. y M. L. Forcada (2001). Part-of-speech tagging with recurrent neural networks, en Proceedings of the International Joint Conference on Neural Networks, pgs. 15881592. a Perez-Ortiz, J. A., F. A. Gers, D. Eck y J. Schmidhuber (2002a). Kalman lters improve LSTM network performance in hard problems, Neural Networks, aceptado con modicaciones. Perez-Ortiz, J. A., J. Schmidhuber, F. A. Gers y D. Eck (2002b). Improving long-term online prediction with decoupled extended Kalman lters, en Proceedings of the International Conference on Articial Neural Networks, Lecture Notes in Computer Science, Springer-Verlag, Berl n, aceptado. Plaut, D. C., S. J. Nowlan y G. E. Hinton (1986). Experiments on learning back propagation, informe tcnico CMUCS86126, Departe ment of Computer Science, CarnegieMellon University. Press, W. H., B. P. Flannery, S. A. Teukolsky y W. T. Vetterling (1988). Numerical recipes in C, Cambridge University Press, Cambridge. Press, W. H., S. A. Teukolsky, W. T. Vetterling y B. P. Flannery (1992). Numerical recipes in C: the art of scientic computing, Cambridge University Press, 2.a ed. Proakis, J. y D. Manolakis (1996). Digital signal processing, Prentice Hall, 3.a ed. Proakis, J. G. y D. G. Manolakis (1998). Tratamiento digital de seales: n principios, algoritmos y aplicaciones, Prentice-Hall. Puskorius, G. V. y L. A. Feldkamp (1991). Decoupled extended Kalman lter training of feedforward layered networks, en International Joint Conference on Neural Networks, vol. 1, pgs. 771777. a Puskorius, G. V. y L. A. Feldkamp (1994). Neurocontrol of nonlinear dynamical systems with Kalman lter trained recurrent networks, IEEE Transactions on Neural Networks, 5(2), 279297.
BIBLIOGRAFIA
161
Rabiner, L. R. (1989). A tutorial on hidden Markov models and selected applications in speech recognition, Proceedings of the IEEE, 77(2), 257 286. ` Rifa, J. y Ll. Huguet (1991). Comunicacin digital, Masson, Barcelona. o Robinson, A. J. y F. Fallside (1991). A recurrent error propagation speech recognition system, Computer Speech and Language, 5, 259274. Rodriguez, P. y J. Wiles (1998). Recurrent neural networks can learn to implement symbol-sensitive counting, en Advances in Neural Information Processing Systems, 10, pgs. 8793, The MIT Press. a Rodriguez, P., J. Wiles y J. Elman (1999). A recurrent neural network that learns to count, Connection Science, 11(1), 540. Rumelhart, David E., Geoffrey E. Hinton y Ronald J. Williams (1986). Learning representations by back-propagating errors, Nature, 323, 533536. Sakakibara, Y. (1997). Recent advances of grammatical inference, Theoretical Computer Science, 185, 1545. Schmid, H. (1994). Part-of-speech tagging with neural networks, en Proceedings of the International Conference on Computational Linguistics, pgs. 172176. a Schmidhuber, J. (1992). A xed size storage O(n3 ) time complexity learning algorithm for fully recurrent continually running networks, Neural Computation, 4(2), 243248. Schmidhuber, J. y S. Hochreiter (1996). Guessing can outperform many long time lag algorithms, informe tcnico IDSIA-19-96, Istituto e Dalle Molle di Studi sullIntelligenza Articiale. Schmidhuber, J. y H. Stefan (1996). Sequential neural text compression, IEEE Transactions on Neural Networks, 7(1), 142146. Sejnowski, T. J. y C. R. Rosenberg (1987). Parallel networks that learn to pronounce english text, Complex Systems, 1, 145168. Shepherd, A. J. (1997). Second-order methods for neural networks, Springer, Londres. Siegelmann, H. T. y E. D. Sontag (1991). Turing computability with neural nets, Applied Mathematics Letters, 4, 7780. Smith, A. W. y D. Zipser (1989). Learning sequential structures with the real-time recurrent learning algorithm, International Journal of Neural Systems, 1(2), 125131.
162
BIBLIOGRAFIA
Sun, G. Z., C. Lee Giles, H. H. Chen y Y. C. Lee (1993). The neural network pushdown automaton: model, stack and learning simulations, informe tcnico CS-TR-3118, University of Maryland, College Park. e Tino, P. y M. Koteles (1999). Extracting nite state representations from recurrent neural networks trained on chaotic symbolic sequences, IEEE Transactions on Neural Networks, 10(2), 284302. k s Tino, P., M. Stanc y L. Benukova (2000). Building predictive models on complex symbolic sequences via a rst-order recurrent BCM network with lateral inhibition, en International Symposium on Computational Intelligence. Tonkes, B. y J. Wiles (1997). Learning a context-free task with a recurrent neural network: an analysis of stability, en Proceedings of the Fourth Biennial Conference of the Australasian Cognitive Science Society. Townshend, B. (1991). Nonlinear prediction of speech, en Proceedings International Conference Acoustics, Speech and Signal Processing, pgs. a 425428. Unnikrishnan, K. P. y K. P. Venugopal (1994). Alopex: a correlationbased learning algorithm for feedforward and recurrent neural networks, Neural Computation, 6, 469490. Weigend, A. S. y N. A. Gershenfeld, coordinadores (1994). Time series prediction: forecasting the future and understanding the past, Proceedings of the NATO Advanced Research Workshop on Comparative Times, Addison-Wesley. Welch, G. y G. Bishop (2002). An introduction to the Kalman lter, informe tcnico TR 95-041, University of North Carolina at Chapel Hill, e Department of Computer Science. Werbos, P. J. (1974). Beyond regression: new tools for prediction and analysis in the behavioral sciences, tesis doctoral, Harvard University. Wiles, J. y J. Elman (1995). Learning to count without a counter: a case study of dynamics and activation landscapes in recurrent networks, en Proceedings of the Seventeenth Annual Conference of the Cognitive Science Society, pgs. 482487, MIT Press, Cambridge. a Williams, R. J. y J. Peng (1990). An ecient gradient-based algorithm for on-line training of recurrent network trajectories, Neural Computation, 2(4), 490501. Williams, R. J. y D. Zipser (1989). A learning algorithm for continually training recurrent neural networks, Neural Computation, 1, 270280.
BIBLIOGRAFIA
163
Ziv, J. y A. Lempel (1977). A universal algorithm for sequential data compression, IEEE Transactions on Information Theory, 23(3), 337 349.

Tesi 2002

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Tesi 2002

Caricato da

Copyright:

Formati disponibili

Tesis doctoral

MODELOS PREDICTIVOS BASADOS EN REDES NEURONALES RECURRENTES DE TIEMPO DISCRETO

Juan Antonio Prez Ortiz e Julio de 2002

Universidad de Alicante Departamento de Lenguajes y Sistemas Informticos a

MODELOS PREDICTIVOS BASADOS EN REDES NEURONALES RECURRENTES DE TIEMPO DISCRETO

Juan Antonio Prez Ortiz e

Departamento de Lenguajes y Sistemas Informticos a Universidad de Alicante

92 93 97 97 100 102 107

1.2. LOS PROBLEMAS

1.2. Los problemas

1.2. LOS PROBLEMAS

1.2. LOS PROBLEMAS

" (566432 $ #! 0(%& $ #! 5 5 )' 1 " )'

2. REDES NEURONALES RECURRENTES

2.1. Redes neuronales

Por ejemplo, la modicacin del nmero de neuronas o de la forma de conectarlas. o u

2. REDES NEURONALES RECURRENTES

2.1. REDES NEURONALES

2. REDES NEURONALES RECURRENTES

2.1. REDES NEURONALES

2. REDES NEURONALES RECURRENTES

2.2. Redes recurrentes

2.3. APLICACION DE LAS REDES RECURRENTES AL PROCESAMIENTO DE SECUENCIAS

2.3. Aplicacin de las redes recurrentes al procesamiento de o secuencias

Si la funcin de salida no est acotada, el intervalo de Y puede ser abierto. o a

2. REDES NEURONALES RECURRENTES

2.3. APLICACION DE LAS REDES RECURRENTES AL PROCESAMIENTO DE SECUENCIAS

3.1. Modelos recurrentes tradicionales

y,u Wi,j uj [t] +

xi [t] = gX (Xi [t])

x,u Wi,j uj [t] +

3.1. MODELOS RECURRENTES TRADICIONALES

dinmica viene determinada por las ecuaciones: a yi [t] = gY (Yi [t])

(3.5) (3.6) (3.7) (3.8)

y,x Wi,j xj [t] + Wiy

xi [t] = gX (Xi [t])

x,u Wi,j uj [t] +

x,x Wi,j xj [t 1] + Wix

y,x Wi,j xj [t] + Wiy

x,x,u Wi,j,k xj [t 1]uk [t] + Wix

y,x,u Wi,j,k xj [t 1]uk [t] + Wiy

x,x,u Wi,j,k xj [t 1]uk [t] + Wix

3.1. MODELOS RECURRENTES TRADICIONALES

x,x Wi,j xj [t 1] + Wix

z,y Wi,j(k) yj [t k] + Wiz

3.2. MODELO DE MEMORIA A CORTO Y LARGO PLAZO

1.0 gZ (Z) PSfrag replacements x gM (x) z

3.2. Modelo de memoria a corto y largo plazo

Figura 3.5: El bloque de memoria i-simo con dos celdas. e

3.2. MODELO DE MEMORIA A CORTO Y LARGO PLAZO

W z,z PSfrag replacements

W ,z x11 x12 x21 x22 W ,u

donde gZ es una funcin de activacin (normalmente sigmoidea y acotada) o o y:

z,z Wij,kl zkl [t 1] +

z,u z Wij,k uk [t] + Wij

y,z Wi,jk zjk [t]

y,u Wi,j uj [t] + Wiy

3.2. MODELO DE MEMORIA A CORTO Y LARGO PLAZO

gZ (Z) PSfrag replacements x

La activacin de las compuertas de olvido i se obtiene calculando: o

3.3. Red recurrente en cascada

3.3. RED RECURRENTE EN CASCADA

gZ (Z) PSfrag replacements

" (566432 $ #! 0(%& $ #! 5 5 )' 1 " )'