Teorías Conexionistas

TEORAS CONEXIONISTAS
1. INTRODUCCIN.
La psicologa cognitiva tiene una historia muy reciente, aunque sus primeras propuestas se encuentran a finales de la dcada de los 40 y principios de los 50, no es hasta los aos 60 cuando realmente se empieza a extender por el mundo entero.
El inmediato antecesor de la psicologa cognitiva, el conductismo, fue hasta ese momento el mayor esfuerzo por conseguir de la disciplina psicolgica una ciencia. Sin embargo en conductismo tropez con varios problemas muy graves, donde los mas significativos fueron:
1. El conductismo es una ciencia sin sujeto, es decir, lo nico importante es la estimulacin ambiental, las conductas que son reforzadas, el ambiente en el que vive el sujeto, por tanto todos los sujetos en esencia pueden ser considerados iguales, la diferencias genticas o carecen de importancia o son ignoradas. 2. El conductismo tambin rechaza la mente (o cognicin), por lo que todo se reduce a un conjunto de estmulos y respuestas que operan mecnicamente. El conductismo estudia la conducta para explicar la conducta.
En los aos 60 los dos argumentos fundamentales del conductismo, el ambientalismo y el organismo vaco comienzan a entrar en decadencia. La etologa, la neurociencia, los desarrollos de la propia psicologa van a propiciar una vuelta a los antiguos temas de la psicologa mentalista pero con una perspectiva metodolgica nueva. Nace as la psicologa cognitiva con el objeto de estudiar la mente mirando la conducta.
La psicologa cognitiva no solo difiere del mentalismo en el mtodo, que es conocido como conductismo metodolgico, segn el cual la investigacin psicolgica debe descansar en la observacin y experimentacin de la conducta. Tambin difiere en el concepto de mente, que ahora es considerada con un sistema capaz de manipular informacin. Cuando naci la psicologa cognitiva esta solo se ocupaba de los estados informacionales, o sea, de la dimensin intelectual, por tanto aspectos como la motivacin y emocin quedaba fuera de su espacio de estudio, ya que no supona un estado informacional nuevo.
En este modo de ver la cognicin influyeron tanto las ideas filosficas racionalistas, que consideraban que la mente hacia una representacin del mundo siguiendo unas reglas, como las tecnolgicas, en concreto el ordenador de Von Neumann, que operaba mediante un procedimiento serial (los ordenadores actuales) y cada una de sus diferentes partes tenan atribuidas funciones concretas. Pero en 1986 D. E. Rumelhart y J. L. McClelland publican la obra Procesamiento Distribuido en Paralelo surgiendo as una nueva forma de entender la cognicin, el conexionismo, al que algunos ya han denominado un nuevo paradigma en psicologa, consideracin esta ltima que veremos mas detalladamente.
Entre la psicologa cognitiva clsica y el conexionismo o procesamiento distribuido en paralelo hay similitudes y diferencias que se puede resumir en:
1. Computacin.- para ambos modelos tericos la computacin en el ncleo central de ambas teoras, sin embargo cada uno concibe la computacin de maneras muy distintas: a. Para la psicologa cognitiva clsica la computacin se realiza mediante la aplicacin de un conjunto de reglas a entidades situadas al nivel de la psicologa popular (creencias y deseos bsicamente). Para el conexionismo la computacin se realiza entre las unidades de una red en funcin de sus pesos de conexin. b. Para las dos es adecuado el uso de la simulacin por ordenador, pero para la psicologa cognitiva clsica la simulacin se realiza a modo de un ordenador serial, mientras que para los conexionistas la arquitectura del ordenador es semejante el cerebro. c. La psicologa cognitiva clsica propone la lgica y las reglas de tipo sintctico y semntico como ocurre en los programas de inteligencia artificial. En el conexionismo el clculo se lleva a cabo mediante procedimientos estadsticos. 2. Objetivos.- Para la psicologa cognitiva clsica el objetivo es descubrir las reglas, elementos y estructuras bsicas que rigen el procesamiento humano. Para el conexionismo es el descubrimiento de redes adecuadas de simulacin y reglas de aprendizaje eficientes. 3. Aprendizaje.- La psicologa cognitiva clsica se mantiene en posturas innatistas y rechaza explcitamente el asociacionismo, mientras que el conexionismo en cierto sentido es una forma de asociacionismo y mantiene la idea de mente como una tabula rasa en la que el ambiente va modelando los pesos de conexin de la red. Para algunos estas diferencias separan al conexionismo de la psicologa cognitiva y lo aproximan al conductismo, dado que este defiende asociacionismo y ambientalismo.
2. CARACTERSTICAS GENERALES DE LOS MODELOS CONEXIONISTAS.
Algunos prefieren llamar al conexionismo neoconexionismo, para diferenciarlo de aquella forma de conexionismo que propuso Alexander Bain en la segunda mitad del siglo XIX, autor que tambin destaco la importancia de las conexiones entre neuronas y la investigacin y experimentacin fisiolgica. El conexionismo tambin es conocido como procesamiento distribuido en paralelo o PDP.
En inteligencia artificial los mtodos de computacin basados en redes neurales se encuentran en un campo de computacin que prescinde del enfoque algortmico tradicional y toma como modelo los sistemas biolgicos. Esta nueva forma de computacin incluye entre otras:
1. 2. 3.
la lgica borrosa las redes neuronales razonamiento aproximado
y recibe los nombres de computacin cognitiva, computacin del mundo real o computacin sof, para distinguirlo del enfoque algortmico tradicional o computacin hard.
En psicologa llamamos conexionismo al paradigma que utiliza redes neuronales para comprender y explica la vida psquica y la conducta. Las redes neuronales son conjunto de unidades interconectadas masivamente capaces de procesar y almacenar informacin mediante la modificacin de sus estados. Aunque con matices, un psiclogo conexionista considera un fenmeno psicolgico explicado cuando el modelo neuronal que construye se comporta del mismo modo que cuando los seres humanos realizan esa misma tarea.
Los elementos caractersticos presentes en la mayora de los modelos conexionistas son:
1.
La red es un conjunto de unidades de procesamiento muy simples.
2. 3.
Dichas unidades interactan mediante conexiones que los asocian. Los estmulos que afectan a las unidades de entrada se expresan en trminos cuantitativos.
4. Toda unidad de la red viene definida por un nivel de activacin expresado de forma cuantitativa. 5. Toda conexin se caracteriza por un valor de fuerza del trazo o peso de conexin, tambin expresado de forma cuantitativa. 6. El procesamiento y almacenamiento de la informacin se realiza de manera distribuida y paralela. 7. Existen ciertas reglas o funciones que modifican el nivel de activacin a partir de las entradas para la produccin de una salida a partir de un nivel de activacin. 8. Existen ciertas reglas o funciones de aprendizaje que permiten a la red modificar los pesos de conexiones para acomodar de modo mas perfecto la informacin de entrada a la salida requerida. 9. La funcin de cada unidad es simplemente realizar clculos con las entradas que recibe y producir una salida a las unidades con que esta conectada. 10. Las seales de salida se expresan en trminos cuantitativos. 11. Toda red neural es un dispositivo que permite computar una funcin, es decir, transformar una seal de entrada en una seal de salida. La funcin presente en la red y que realiza el cmputo es bsicamente el patrn o conjunto de pesos sinpticos de las unidades.
3. IMPLEMENTACION DE LAS REDES NEURONALES.
Las redes neuronales suelen implantarse en ordenadores convencionales, es decir, de arquitectura Von Neumann, pero las maquinas mas adecuadas son las que reproducen en su arquitectura la propia arquitectura de la red. Las maquinas mas conocidas son los neurocomputadores y los neurochips.
1. Neurocomputadores.- constan de un conjunto de procesadores conectados entre si que operan concurrentemente. Ejemplos de ellos son el MARK IV y el ANZA Plus 2. Neurochips.- en este caso las redes neuronales se implementan un uno o varios circuitos integrados especficos. Soportan menos neuronas que los neurocomputadores, pero su velocidad
es muy superior, pues las interconexiones entre neuronas se encuentras dentro del propio chip. Un ejemplo de estas es el chip N64 de Intel. 3. Neurocomputadores de propsito especial.- las maquinas anteriores son de propsito general, pero tambin hay maquinas para implementar modelos especficos de redes neuronales.
4. CAMPOS DE APLICACIN DE LAS REDES NEURONALES.
La mayora de los modelos existentes tienen que ver con el reconocimiento de patrones: busca patrones, clasificar patrones, reconstruir patrones... Algunas redes trabajan sobre datos sensoriales mientras que otras sobre datos introducidos por el usuario.
Los campos de aplicacin se encuentran fundamente en la psicologa y en la inteligencia artificial, aunque tambin encontramos ejemplos en la biologa.
5. DIFERENCIAS ENTRE EL CONEXIONISMO Y LOS MODELOS COGNITIVOS TRADICIONES.
Existen importantes diferencias entre la psicologa cognitiva clsica y el conexionismo, ahora examinaremos algunas de ellas.
5.1. Inspiracin neurofisiolgica.
La psicologa cognitiva no daba importancia a la base orgnica de la vida mental, es mas, desde las tesis funcionalistas (base de la psicologa cognitiva clsica) se consideraba que los procesos mentales podan ser comprendidos sin que para ello fuese precisa la realizacin de los modelos en un sistema fsico. El conexionismo por el contra toma el cerebro como modelo de procesamiento, por lo que de esta manera el conexionismo se aproxima a la biologa. Se ha pasado pues de la metfora del ordenador de la psicologa cognitiva clsica a la metfora del cerebro en el conexionismo.
Con el conexionismo la inteligencia artificial, la psicologa y la biologa se convierten en disciplinas cada vez mas cercanas, lo cual es interesante desde el punto de vista de la unidad en las ciencias.
El conexionismo no pretende ser una teora biolgica, sino una teora psicolgica inspirada biolgicamente.
Las unidades bsicas del sistema nervioso son las neuronas, estas se conectan entre si formando redes extraordinariamente complejas donde cada neurona toma una seal y sobre ella devuelve o no una seal de salida a la neurona siguiente con que se encuentra conectada. Se produce as un procesamiento paralelo, porque las diferentes neuronas reciben seales de manera simultanea, y distribuido por que el resultado del procesamiento no dependen de la seal emitida por una neurona, sino de un gran conjunto de ellas.
En las neuronas cabe destacar las siguientes partes fundamentales:
1. Cuerpo celular o soma.- su funcin es recibir la seal y determinar si se produce o no una salida o respuesta hacia las dems neuronas de la red. 2. Axn.- su funcin es transmitir la seal a las dems neuronas cuando as lo ha determinado el soma. 3. Dendritas.- es el punto por el cual las neuronas reciben las seales de las dems neuronas.
Para que la transmisin de la seal, que es un impulso elctrico, se de es preciso que el axn y las dendritas de las neuronas se conecten, esta conexin se lleva a cabo mediante la liberacin de una sustancia conocida como neurotransmisor. As podemos encontrar puntos comunes entre el funcionamiento del sistema nervioso y las redes conexionistas:
1. Los neurotransmisores pueden ser excitadores o inhibidores, de tal forma que para conocer la respuesta de una neurona es preciso conocer la suma del total de impulsos recibidos. 2. Para que la neurona enve una respuesta a las siguientes es preciso que se supere un determinado umbral de impulso elctrico, de este modo la respuesta de la neurona es siempre una respuesta de todo o nada.
Como hemos visto las redes conexionistas tratan de replicar algunos aspectos muy importantes del sistema nervioso, no obstante no se preocupan por reproducir otros, como por ejemplo:
1. Las redes conexionistas diseadas hasta ahora constan como mucho de varias centenas de unidades y varios miles de conexiones, mientras que el sistema nervioso consta de aproximadamente 1011 neuronas y 1015 interconexiones. 2. En las redes conexionistas el peso de las conexiones se establece inicialmente de manera aleatoria y se modifica por aprendizaje por lo que prima el ambientalismo frente a los componentes innatos. Por tanto la estructura y organizacin del sistema nervioso parece no tener mayor importancia. 3. En el sistema nervioso el aprendizaje da lugar a modificaciones en la fuerza de conexin entre las neuronas, pero tambin da lugar al establecimiento de nuevas conexiones. En los modelos conexionistas solo se modifica l fuerza de conexin.
5.2. El procesamiento es paralelo, no serial.
La inmensa mayora de los ordenadores que existentes son ordenadores seriales, ordenadores tipo Von Neumann, estos ordenadores se caracterizan por una gran capacidad para dar grandes resultados en periodos muy breves de tiempo con una precisin casi absoluta. No obstante hay tareas, aparentemente sencillas, que puede hacer un nio de 3 aos y no puede hacer los ordenadores mas sofisticados y el software mas sofisticado. La diferencia estriba pues en el modo en como procesamos las personas y las maquinas.
En un procesamiento serial en cada momento solo se realiza una operacin, en un procesamiento en paralelo en cada momento se realizan tantas operaciones como unidades participan en el procesamiento completo.
5.3. Procesamiento distribuido.
El carcter distribuido de las redes conexionistas hace referencia a dos aspectos muy importantes, el procesamiento en si, y el almacenamiento de la informacin.
En los modelos conexionistas no hay una unidad central de procesamiento como ocurre en los ordenadores tipo Von Neumann, no hay viarias partes cada una de las cuales se encarga de la
realizacin de una serie de funciones concretas y especificas. El resultado del procesamiento corresponde a la totalidad de la unidad de procesamiento, y no a una parte de ella.
De la misma manera el almacenamiento de la informacin no se realiza en un lugar concreto como ocurre en los ordenadores tipo Von Neumann, ni tampoco una unidad concreta almacenada puede dar una pista de que informacin esta siendo almacenada si no es contemplada toda en su conjunto.
Una de las grandes ventajas del procesamiento distribuido es que el dao o perdida de algunas unidades no tiene efectos dramticos sobre el funcionamiento de la red.
Sencillos ejemplos de procesamiento distribuido lo podemos encontrar en:
1. Una calculadora digital donde se representan cada uno de los valores numricos por la combinacin de un mximo de 7 palotes. 2. Las matrices que nos permiten mostrar como un conjunto de elementos puede procesar distintos conjuntos de datos para producir cada uno la salida correspondiente.
5.4. Computacin sin reglas.
En la psicologa cognitiva clsica la computacin se realiza siguiendo una serie de reglas en la manipulacin de smbolos, smbolos estos que poseen un significado. En los modelos conexionistas la computacin no es otra cosa que el clculo de seales de salida en funcin de la seal de entrada, solo hay tres elementos, entrada, clculo y salida, todos ellos expresados en trminos cuantitativos. Este mtodo de procesamiento puede parecer guiado por reglas, pero no lo es ya que el computo es puramente cuantitativo. En el conexionismo el aprendizaje se define como la modificacin de los pesos de conexiones para la transformacin de los vectores de entrada en vectores de salida. Mediante funciones adecuadas de aprendizaje las redes pueden modificar sus pesos de modo que los vectores de entrada produzcan un vector de salida con un resultado estadsticamente aceptable.
El reconocimiento de patrones parece ser una de las tareas a las que mejor se adaptan las redes conexionistas. En estos casos lo que ocurre es que la red llega a reconocer varios patrones de entrada que tienen elementos comunes pero no son idnticos con un mismo patrn de salida. De esta manera las rede neuronales pueden ser caracterizadas como sistemas dinmicos autoadaptativos:
1. Autoadaptativos por que ellas mismas sin que exista una unidad rectora pueden ajustar sus unidades de procesamiento de modo conveniente para producir un vector de salida requerido. 2. Dinmicos por que pueden cambiar constantemente para adaptarse a las nuevas condiciones que imponen los nuevos conjuntos de datos o vectores de entrada que se le presentan.
El aprendizaje es en estos modelos la modificacin de los pesos o fuerzas de conexin existentes entre las unidades, no la adquisicin de reglas o algoritmos explcitos. Los problemas mas importantes a la hora de disear una red se refieren a la obtencin de una arquitectura apropiada (nmero de capas, unidades necesarias, interconexin entre ellas, funciones de activacin y transferencia) y un buen algoritmo de aprendizaje que permita a la red discriminar entre distintos estmulos.
Una consecuencia de al ausencia de reglas explicitas es que con este sistema de procesamiento reconocemos semejanzas, pero no podemos describir en que consisten dichas semejanzas.
5.5. Degradacin elegante. Tolerancia a los fallos.
En las redes conexionistas cuando se produce un fallo en algunas de sus unidades el efecto no es catastrfico (como ocurra en los modelos seriales), solo afecta en eficacia y precisin en funcin de la magnitud del dao. Otra caracterstica importante es la relativa a la tolerancia a los fallos, cuando se realiza una bsqueda incompleta o errnea el sistema puede dar una respuesta. Esto se debe a que por su estructura distribuida y paralela las redes conexionistas son redundantes tanto en procesamiento como en almacenamiento de la informacin.
6. BREVE HISTORIA DEL CONEXIONISMO.
6.1. Hasta la primera mitad del siglo XX.
Las primeras aportaciones destacables provienen del campo de la neurofisiologa, donde Luria, Lashley y Hebb se enfrentan a las teoras imperantes sobre el carcter localista del almacenamiento y las funciones cerebrales, proponiendo una concepcin distribuida. Sus investigaciones demostraron que la especializacin poda darse en grandes regiones del cerebro, pero en absoluto en neuronas singulares. Lashley llego incluso a afirmar la equipotencialidad cerebral, segn la cual cualquier parte del cerebro puede desempear cualquier funcin.
Una de las aportaciones mas importantes corresponde a Donald Hebb, que defenda la conexin entre la fisiologa y la psicologa, propuso el carcter distribuido de la informacin y formulo uno de los primeros procedimientos de aprendizaje segn el cual conjuntos de neuronas sincrnicamente activadas tienden a organizarse en conjuntos conectados.
Posteriormente, en 1943, el neurofisilogo Warren McCulloch y el matemtico Walter Pitts trataron el cerebro como un organismo computacional y propusieron una un tipo de red neuronal que a diferencia de las actuales funcionaba bajo un enfoque lgico y no uno probabilstico. A este tipo de neuronas elementales las llamaron neuronas formales.
6.2. Aos 50 y 60.
En estos aos se emplearon las redes neuronales para dar cuenta de la memoria asociativa y el reconocimiento de patrones.
6.2.1. La memoria asociativa.
Desde hacia mucho tiempo era ya sabido que cuando dos recuerdos tienen puntos comunes, el recuerdo de una puede llevar al recuerdo del otro.
En esta lnea Wilfrid Taylor propone una red de tres capas de pesos modificables pero sus neuronas no son biestables (como las de McCulluch-Pitts, o las que manejamos en la actualidad)
sino analgicas. El procedimiento de entrenamiento es la regla de Hebb. Estas redes asociativas se les llama hoy memorias asociativas direccionables o accesibles por contenido (ACAMs).
6.2.2. El reconocimiento de patrones.
En 1956 John Von Neumann mejoro las redes McCulluch-Pitts creando redes confiables, donde los valores no los aportaba una neurona, sino un conjunto de ellas. De esta manera introduce la redundancia en la red para evitar el fallo catastrfico por perdida de unidades. Prob que estas redes podan hacer clculos aritmticos de manera muy confiable.
En 1963 Shamule Winograd y Jack Cowan mejoraron la propuesta de Von Neumann con una propuesta aun mas distribuida. En las redes Winograd-Cowan un bit se representaba mediante varias neuronas, y adems cada neurona representaba parcialmente varios bits.
Poco despus Frank Rosenblatt defiende los mtodos probabilsticos mas que los lgicos para la computacin en redes neuronales, mejora la regla de aprendizaje de Hebb y presenta una red llamada perceptrn que consta de dos capas, la primera sensorial y la segunda motora. Sus unidades eran binarias, como las del tipo McCulluch-Pitts, e inicialmente sus pesos de conexin eran aleatorios. El perceptrn era capaz de reconocer patrones sencillos y generalizar similitudes entre patrones, pero no poda resolver un problema aparentemente sencillo, la disyuncin exclusiva, es decir, incapacidad de clasificar clases o patrones no separables linealmente.
Marvin Minsky, compaero de Rosenblatt, por un lado hizo aportaciones al conexionismo, y por otro lado tambin a la psicologa cognitiva clsica. Aunque se doctoro con un trabajo que tena como puntos fuertes:
1. 2.
carcter relativamente indiferenciado del cerebro importancia del aprendizaje en la organizacin neuronal
3. construccin de una maquina que reproduzca los aspectos sustanciales de la cognicin humana
no tardo mucho en abandonar tales postulados dejando de la do el enfoque conexionista defendiendo la idea de que para comprender la mente humana no es preciso el estudio del cerebro atendiendo nica y exclusivamente al comportamiento (tesis fundamental de la psicologa cognitiva clsica).
Selfridge desarrollo el modelo llamado Pandemonium y se caracteriza por que realiza un procesamiento interactivo. Este autor en lugar de hablar de neuronas en su modelo habla de demonios.
Bernard Widrow y Marcial Hoff desarrollaron una variable del perceptrn y un nuevo procedimiento de aprendizaje llamado regla delta del aprendizaje. Llamaron adaline a su red (neurona lineal adaptativa). La nica diferencia con el perceptrn es el procedimiento de aprendizaje o el entrenamiento utilizado. El ADALINE fue la primera red neuronal aplicada a un problema real (como filtro para eliminar ecos en las lneas telefnicas) y se ha usado durante varias dcadas.
6.2.3. Limitaciones de los perceptrones y adalines elementales.
Marvin Minsky y Seymour Papert demostraron que los perceptrones y adalines elementales (los que solo constan de dos capas) eran incapaces de distinguir entre patrones tan sencillos como T y C, o de realizar tareas tan sencillas como la disyuncin exclusiva. Probaron que aunque dichas redes podan modificar sus pesos de conexin no podan resolver mas que problemas linealmente separables. Adems argumentaron que esta dificultad no se poda superar agregando unidades ocultas, formando as redes multicapa. Esto se demostr falso a partir de 1986 cuando se descubri la regla delta generalizada y la validez de su uso en redes con capas ocultas, se soluciono as el problema de la disyuncin exclusiva presentado por los perceptrones y adalines.
Pero mas que la importancia del error de este trabajo de Marvin Minsky y Seymour Papert fue que tras sus criticas las autoridades americanas dirigieron sus fondos a la inteligencia artificial y a la psicologa cognitiva clsica con el consiguiente freno para el desarrollo de los modelos conexionistas.
6.3. Aos 60 y 80.
J. A. Anderson en 1977 presento anlisis matemticos de algunas propiedades de las redes neuronales y defendi la relevancia de las representaciones distribuidas en distintos campos de la psicologa. Fueron tambin importantes sus trabajos en memoria asociativa por contenido y nuevos modelos de redes.
Stephen Grossberg es uno de los mas destacados investigadores en el mbito conexionista. Ha desarrollado diversos modelos de redes, del que quizs el mas conocido es la red Avalancha para el reconocimiento del habla y aprendizaje del movimiento de los brazos de un robot propuesta en 1967. Realiz las primeras investigaciones sobre aprendizaje competitivo y subrayo la importancia de los modelos conexionistas en campos como la percepcin y la memoria.
Hofstadter (1985) defiende la existencia de dos niveles de procesamiento, el que estudia la psicologa cognitiva clsica (nivel estructural) y un nivel de procesamiento mas bajo en el que se sitan los trabajos del conexionismo (nivel microestructural).
Es en los aos 80 cuando el conexionismo toma auge, y es esta trayectoria es fundamental la obra de G. E. Hinton y la de J. A. Anderson, en la que este ltimo estudia el hardware del sistema nervioso real y propone modelos neuronales sencillos basados en los biolgicos y destinados a explicar procesos cognitivos.
J. A. Feldman y D. H. Ballard (1982) desarrollaron muchos de los principios computacionales del enfoque que hasta este momento se haba llamado Procesamiento Distribuido en Paralelo y usan por primera vez el nombre de conexionismo, criticaron tambin el enfoque tradicional de la inteligencia artificial pro su poca plausibilidad biolgica. Pero el impulso mas definitivo es sin duda el que tiene como protagonistas a David E. Rumelhart, James. L. McClelland y varios investigadores mas que forman lo que se ha llamado el grupo PDP, y que culmina con la aparicin de lo que se ha llamado la Biblia del conexionismo, Procesamiento Distribuido en Paralelo: exploracin de la microestructura de la cognicin publicado en 1986. En esta obra se tratan importantes cuestiones, pero destaca la demostracin de cmo las redes de mas de dos capas pueden solucionar las objeciones matemticas propuestas por Minsky y Papert y que limitaron el desarrollo de las redes neuronales.
A partir de Procesamiento Distribuido en Paralelo, se incrementa enormemente la investigacin en redes neuronales tanto desde la Inteligencia Artificial como desde la psicologa. Se convierte as el conexionismo en un movimiento revolucionario en el panorama de la ciencia cognitiva. En este contexto se crean la Sociedad Europea de Redes Neuronales (ENNS) y la Sociedad Internacional de Redes Neuronales (INNS).
Entre octubre de 1987 y febrero de 1988 el Instituto Tecnolgico de Massachussets (MIT) patrocinado por la Oficina de Tecnologa Tctica de la Agencia de Proyectos de Investigacin Avanzada del Departamento de Defensa de los Estados Unidos (DARPA/TTO) llevo a cabo una revisin de la investigacin y tecnologa basada en redes neuronales llevada a cabo hasta ese momento.
En Espaa tambin se ha creado una sociedad para la investigacin de redes neuronales que ha organizado varios congresos y seminarios, el que se organizo en la UNED en el curso 87-88 dio lugar a la edicin de Introduccin al Procesamiento distribuido en Paralelo. El programa europeo ESPRIT diversos proyectos en este campo.
7. ELEMENTOS DE LAS ARQUITECTURAS CONEXIONISTAS.
En las redes conexionistas es preciso distinguir dos tipos de elementos, los relativos a su estructura y los relativos a los mecanismos de procesamiento:
Conceptos y elementos de la arquitectura conexionista Las unidades
Conceptos y mecanismos bsicos para el procesamiento en las redes conexionistas. La entrada (input) total La regla de propagacin
Las conexiones entre las unidades (las sinapsis) El peso sinptico
El estado de activacin La regla o funcin de activacin La salida (output) de las unidades La funcin de transferencia
El patrn de conexin
Reglas de aprendizaje
7.1. Conceptos y elementos de la estructura conexionista.
7.1.1. Las unidades.
Los elementos bsicos del procesamiento de informacin en el cerebro son las neuronas, y dado que los modelos conexionistas son de inspiracin biolgica, a las unidades bsicas encargadas del procesamiento se las denomina habitualmente neuronas, aunque tambin podemos encontrar nombres como: clulas, unidades, neuronas artificiales, nodos, elementos de procesamiento (PEs) o, simplemente, elementos. La funcin de las unidades tiene que ver la recepcin de informacin, tratamiento de la informacin y su envo a otras unidades.
Existen tres tipos de unidades:
1.
Unidades de entrada.- su funcin es recibir informacin del fuentes externas a la propia red.
2. Unidades ocultas.- aunque no todas las redes poseen estas unidades, si se encuentran en aquellas que tienen un mnimo de sofisticacin. Su funcin es relacionar la informacin de la unidades de entrada con las unidades de salida, por lo que no tienen ningn tipo de contacto con el ambiente exterior a la red, su funcin es favorecer cmputos mas eficaces. La cantidad de informacin que puede procesar una red viene determinada en gran medida por el abanico de entrada (fan-in), que es el nmero de elementos (unidades de entrada) que excitan o inhiben una unidad dada (de la/s capa/s oculta) y el abanico de salida (fan-out) que es el nmero de unidades (de la/s capa/s oculta) que afectan a cada unidad de salida. Se llama capa, nivel o estrato al conjunto de neuronas que reciben informacin de la misma fuente (informacin externa, otra capa de neuronas) y ofrecen informacin al mismo destino (al usuario, sistemas motores, a otra capa de neuronas). 3. Unidades de salida.- envan la informacin procesada al exterior de la red. Esta informacin de salida se puede enviar al medio ambiente o bien a la entrada de otras redes.
7.1.2. Las conexiones entre las unidades (las sinapsis).
Las sinapsis son las conexiones entre neuronas, en la mayor parte de las redes las sinapsis son unidireccionales, sin embargo en algunas redes como las de Hopfield las sinapsis son bidireccionales.
Las sinapsis pueden ser de dos tipos:
1. Sinapsis inhibidora.- el impulso transmitido por una neurona inhibidora inhibe la activacin de la neurona con la cual est conectada, e inhibir en funcin del peso establecido para esa conexin. Las sinapsis inhibidoras se suelen representar por puntos negros. 2. Sinapsis excitadora.- el impulso transmitido por una neurona excitatoria aumenta la activacin de la neurona con la cual est conectada, y aumentar en funcin del peso establecido para esa conexin. Las sinapsis excitatorias se suelen representar por puntos huecos o vacos.
7.1.3. Peso sinptico o peso de la conexin.
El peso sinptico es un de los conceptos mas importantes por varias razones:
1.
Los cmputos que hace la red dependen de los pesos de conexin.
2. Los clculos que el sistema realiza a partir de la seal de entrada para producir la seal de salida dependen de los pesos. 3. En cierto modo son el anlogo de las representaciones en los modelos tradicionales.
Una sinapsis en fuete o tiene gran peso si la informacin que por ella se aporta contribuye en gran medida a que se produzca un cambio de estado en la neurona receptora, es dbil en el caso contrario. Los pesos sinpticos son valores numricos enteros, fraccionarios, positivos o negativos. Respecto a la notacin, cuando vamos a representar mediante un nico vector la totalidad de pesos correspondiente a un conjunto de neuronas usamos la W mayscula. Cuando nos referimos a una nica conexin emplearemos la w minscula.
7.1.4. El patrn de conexin.
En los modelos conexionistas el conocimiento que la red alcanza a partir del aprendizaje se representa mediante un patrn de conexin, dicho patrn determinara el modo en que la red procesa las siguientes seales de entrada.
En los modelos mas simples la entrada total depende de los valores de entrada y de los pesos que ponderan como se tratara esa entrada en ese momento concreto. Para representar un patrn de conexin se utiliza una matriz de pesos W, donde cada uno de los elementos de la matriz w indica el peso correspondiente a la conexin entre la unidad j y la unidad i. El nmero correspondiente a w representa la fuerza de la conexin, cuando el valor es cero significa que dicha unidad no esta conectada, y el signo + o indica si es excitatoria o inhibitoria.
7.2.1. Notacin utilizada para representar los elementos y mecanismos de las redes conexionistas.
La tarea de cada neurona o unidad es recibir las entradas de sus vecinas y calcular un valor de salida que es transmitido a las neuronas que le siguen. Toda la informacin que la red recibe, almacena transforma y enva se expresa en trminos matemticos, en forma de cantidades y formulas aplicadas a cantidades.
La representacin interna de la informacin se genera en las sinapsis o conexiones y en la actividad de las neuronas o unidades, particularmente en las de la capa oculta. Dado que las redes modifican sus estados a travs del tiempo, es tambin importante introducir en la descripcin de los estados la referencia al tiempo:
1. A cada neurona (unidad i, ui) le corresponde en cada instante un valor numrico denominado valor o estado de activacin. 2. Cada unidad utiliza una funcin de salida, fi, que calcula la seal de salida (oi) a partir del estado de activacin que en ese momento tiene la neurona. 3. La seal de salida se transmite a otras unidades con las que dicha neurona esta conectada.
4. Una neurona recibe la seal de todas las neuronas con las que esta conectada, pero teniendo en cuenta:
a.
El peso asociado a cada una de las conexiones, wij.
b. La intensidad o seal que se transmite por la sinapsis; a la suma de todas las seales ponderadas por el peso de las correspondientes se le llama NETi. 5. El nuevo estado de activacin ai(t+1) de la neurona i se calcula mediante una funcin de activacin Fa, teniendo en cuenta la entrada total calculada o NET y su anterior estado de activacin ai(t).
La notacin empleada en las redes neuronales no es unnime:
1.
Las unidades o neuronas se representan como u o como n.
2. La funcin de activacin se suele presentar por Fa, pero tambin por F. Dado que es preciso referirse a las funciones de activacin y a la de transferencia pera la primera usaremos F, y para la segunda f. 3. La referencia a la activacin actual se suele denominar como a(t) y la siguiente como a(t+1), pero tambin se puede encontrar como referencia a la activacin actual a(t-1), y la activacin siguiente como a(t). 4. Para distinguir la parte de la formula que corresponde con el nombre de las unidades de la parte de la formula correspondiente a otros elementos, se emplean varias estrategias: a. b. Subndice para los nombres y letra normal para el resto. Letra normal para el nombre de la unidad y negrita para el resto.
5. Para referirse al peso de cada conexin se emplea tanto la O mayscula como la minscula o. Para el peso global W en mayscula o minscula, y para la entrada total NET en maysculas, minsculas o comenzando por mayscula o minscula.
7.2.2. La entrada (input) total. La regla de propagacin.
Una neurona recibe seales de diferentes neuronas, por lo que es preciso calcular el efecto global que tendr ese conjunto de seales o input. El input total se denomina NET, y para el caso de la entradas que recibe una neurona i en un tiempo t NETi(t). Llamamos regla de propagacin a la formula que nos permite calcular o entrada total o NET. Existen varias formulas de propagacin, pero la mas sencilla y habitual es la siguiente:
NETi(t+1) = wij * oj(t)
donde:
1. 2.
NETi es la suma de todas las seales que llegan a la neurona i. oj seales que llegan a la neurona i con un peso de conexin dado.
Cuando una seal se recibe por una sinapsis inhibidora el peso wij asociado a dicha sinapsis ser negativo, por lo que el resultado del producto ser negativo.
En ocasiones los pesos de todas las conexiones se pueden presentar mediante una matriz Wij que incluira todos los pesos de conexiones con la neurona i (wi1, wi2, wi3, ........ wij).
Tambin es habitual referirse al conjunto de valores de entrada de una unidad como el vector O(t). Es el vector de valores que produce una neurona y que le es entregado a la neurona siguiente, corresponde al instante anterior a la modificacin de la neurona i.
7.2.3. El estado de activacin.
La activacin es muy importante puesto que la seal que enva la propia neurona depende de su propio estado de activacin. La activacin es el grado de excitacin de una neurona y cambia en funcin de cuatro factores:
1. 2. 3.
del estado anterior de activacin de las entradas que la neurona recibe de los pesos de las conexiones por las que recibe las seales
4. la funcin de activacin que calcula el punto de activacin en funcin de las entradas recibidas.
Se llama ciclo a cada una de las veces que la red toma vectores de entrada para realizar los cmputos correspondientes para calcular una salida. Dado que cada ciclo de activacin puede ser distinto, es muy importante la referencia temporal. As nos referiremos al nivel de activacin de una neurona i en un tiempo t como Ai(t) o tambin ai(t).
Lo que la red representa en cada momento depende del patrn de activacin de todas las unidades que forman la red, por lo que tambin es preciso especificar dicho patrn. Para ello se suele emplear un vector de N nmeros reales a(t) que representa el estado de activacin de todas las unidades de la red en un momento t.
De este modo cabe caracterizar el procesamiento que realiza la red como la evolucin que sufren en el tiempo los patrones de activacin de las unidades.
Hay muchos modelos de redes conexionistas, y los valores de activacin que pueden tomar las unidades pueden ser diversos. Los mas empleados son los siguientes:
1.
Continuos:
a. Abiertos.- se llaman tambin modelos no acotados o modelos sin limite, el valor de activacin de una neurona puede ser cualquier nmero real. b. Cerrados.- tambin son denominados modelos acotados o modelos con limites, pueden tomar cualquier nmero real comprendido dentro de unos limites, generalmente siguen una funcin sigmoidal. 2. Discretos: se corresponden con los modelos mas sencillos.
a. Binarios.- son los mas frecuentes y representan los dos posibles estados de una neurona, activada y desactivada. b. Valores discretos no binarios.- valores que se encuentran dentro de un pequeo conjunto, por ejemplo: [-1, 0, +1]
El comportamiento de las redes con distintos tipos de valores de activacin son tambin distintos. Si las entradas responden a seales analgicas los modelos mas adecuados son los continuos, pero si la entrada es digital, los mas adecuados son los discretos.
7.2.4. La regla de activacin.
7.2.4.1. Concepto y formula general.
El estado de activacin dependen de la funcin de activacin, que no es otra cosa que una funcin matemtica empleada para calcular el siguiente estado de activacin, dicha funcin calcula la nueva actividad de la unidad a partir de:
1. 2. 3.
El anterior estado de activacin (aunque esta cantidad no siempre se tiene en cuenta). Todas las entradas que recibe de otras unidades. Los pesos de las conexiones de las unidades de entrada.
7.2.4.2. Tipos de funciones de activacin.
1. Funcin de identidad.- es una funcin que no tiene en cuenta el anterior estado de activacin de la unidad. En algunas redes se incluye en este tipo de funcin de activacin un factor que representa una fraccin de valor de activacin anterior con el objetivo de que el estado de la neurona o unidad no vare demasiado bruscamente. 2. Funcin de activacin tipo umbral.- se emplea en redes cuyas neuronas solo pueden tener dos estados, cuando se supera un determinado nivel, marcado por el diseador de la red, se pasa de un estado al otro.
7.2.5. La salida de las unidades. La funcin de transferencia.
7.2.5.1. Concepto y formula general de la funcin de transferencia.
El grado en el que una neurona afecta a las siguientes con las que esta conectada depende de dos factores:
1.
Su grado de activacin.
2. La funcin matemtica que modula el estado de activacin provocando la seal de salida, funcin que suele ser la misma para todas las unidades de la red.
Por tanto unidades el mismo grado de activacin pero distinta funcin de salida producirn distintas seales, a dicha funcin se le llama funcin de transferencia.
7.2.5.2. Tipos de funcin de salida o de transferencia.
Existen varios tipos de funciones de transferencia. La funcin de escaln o umbral solo se utiliza en redes binarias. La salida se activa solo cuando el estado de activacin es igual o superior a un cierto umbral. Las funciones mixta y sigmoidal son las mas apropiadas cuando trabajamos con informacin analgica.
Funcin de identidad o funcin lineal.
Es la mas sencilla y de menos uso. Se llama funcin de identidad por que la salida es igual a su estado de activacin, o lo que es lo mismo, equivale a no aplicar una funcin de salida. Esta funcin es adecuada cuando la funcin de activacin que hemos empleado es de tipo umbral.
Funcin de umbral o funcin de escaln.
La unidad enva seales de salida solo cuando su activacin es igual o mayor a un cierto umbral. La respuesta de salida ser binaria.
Funcin mixta.
En esta funcin si la activacin esta por debajo del limite inferior de un intervalo da una salida, si esta por encima del limite superior del intervalo da otra salida, y si se encuentra dentro del intervalo da una funcin lineal de la activacin.
Funciones de saturacin.
Son las funciones en las que los incrementos o disminuciones de la intensidad de la actividad de al unidad producen incrementos o disminuciones de los valores de salida hasta llegar a unos limites de salida mxima o mnima a partir de los cuales la salida se estabiliza y es la misma a pesar del incrementos o disminucin de la intensidad de actividad de la unidad.
Hay varias funciones de saturacin siendo la mas usada la funcin sigmoide.
Funcin sigmoide.- es una de las funciones de transferencia mas utilizadas, produce salidas continuas y proporcionales al nivel de activacin dentro del rango 0-1.
Funcin tangencial hiperblica.- es similar a la funcin sigmoide, pero su rango de saturacin es 1 para el valor mnimo y 1 para el valor mximo.
Atendiendo a los tipos de funciones que intervienen en el cmputo, las neuronas se pueden clasificar en lineales y no lineales.
Neuronas lineales.- tienen funciones de activacin y transferencia lineales o proporcionales, por lo que la composicin de ambas da lugar a otra funcin lineal. La respuesta de las neuronas lineales no esta acotada, es decir, puede tomar cualquier valor. Los cmputos que realizan las neuronas lineales de mas de dos capas pueden ser realizados con neuronas no lineales de dos capas, por lo que es superfluo construir redes de mas de dos capas si las funciones utilizadas son siempre lineales.
Las primeras redes eran de este tipo y presentaban dos grandes problemas: 1. Falta de persistencia en las respuestas: todo cambio en la entrada produce un cambio en la salida, y esto puede dar lugar a que cambio muy pequeos en las entradas provoquen grandes fluctuaciones en las salidas. 2. Falta de adecuacin simultanea a seales grandes y pequeas: si las funciones utilizadas amplifican mucho las seales de entrada, entonces las seales de salida provocadas por seales de entrada muy dbiles provocaran respuesta, y si las de entrada tiene un nivel medio, la salida ser muy elevada. Lo contrario ocurrir cuando las funciones utilizadas amplifiquen poco la seales de entrada.
Neuronas no lineales.- la respuesta de estas neuronas no es una funcin lineal de sus entradas, ya sea por que la funcin de activacin o de transferencia no son lineales ninguna de ellas, o bien por que alguna de ellas no es lineal. Son funciones no lineales: umbral, sigmoide o hiperblica tangente. Estas neuronas son mas interesantes que las anteriores ya que producen respuestas acotadas y con ello resuelven gran parte de los problemas anteriores. Con estas funciones se consigue que una neurona no produzca cambios significativos cuando las nuevas seales no son muy diferentes de las actuales.
7.2.6. Reglas de aprendizaje.
7.2.6.1. Conceptos y modelos de aprendizaje.
En rede neuronales se dice que la red aprende cuando es capaz de ofrecer un determinado patrn o vector de salida para un valor de entrada concreto. Esta capacidad de emparejar vectores se consigue mediante la modificaron de los patrones de conexin, que se llevan a cabo por al menos tres procedimientos:
1. 2. 3.
Desarrollo de nuevas conexiones Perdida de conexiones existentes Modificacin de la fuerza de las conexiones existentes
Aunque los aspectos 1 y 2 no han sido explcitamente tratados en el marcos de las des conexionistas, se puede considerar que son un caso particular del punto 3, ya que el desarrollo de nuevas conexiones puede considerarse como un aumento en la fuerza de conexin, y la perdida de conexiones, como un caso de reduccin de la fuerza de conexin. As pues, el aprendizaje en redes conexionistas consiste en la modificacin de la intensidad de las conexiones. Las reglas de aprendizaje son procedimientos para cambiar el patrn de conexin.
En la vida de una red se pueden distinguir dos fases, la fase de aprendizaje, en la que la red es entrenada, y la fase de ejecucin, cuando la red ya ha aprendido a dar el patrn de salida para el que ha sido diseada, y sus pesos no volvern a ser modificados.
Existen varios modelos de aprendizaje, de los que los principales son:
1. Aprendizaje supervisado.- en este modelo existe un agente externo que es quien controla el proceso de aprendizaje de la red. La red debe relacionar dos fenmenos X e Y mediante la presentacin de un conjunto de ejemplos (X1Y1, X2Y2, X3Y3....XnYn). Se llama juego de ensayo al conjunto formado por las parejas anteriores. Es muy importante tener presente los elementos que componen el juego de ensayo, es preciso incluir en el los patrones mas representativos del problema que tratamos de computar. As pues cuando se introduce un patrn de entrada, la red produce una salida oi, que normalmente no coincide con la requerida, y es aqu donde entra la supervisin, cuando el maestro calcula el error de salida y procede a la modificacin de la regla de aprendizaje modificando los pesos. A cada uno de los pasos complejos del juego de ensayo se le llama ciclo, y dependiendo de la complejidad del problema sern muchos o pocos los ciclos precisos para que la red aprenda. Aunque el ideal es el 100% de aciertos, lo mas comn es aceptar un resultado cuando los errores han sido razonablemente minimizados. 2. Aprendizaje no supervisado.- en este tipo de aprendizaje no existe un agente externo que vaya modificando los pesos de conexin en funcin de la salida, puesto que no se ha especificado cual ser la salida correcta. En este aprendizaje se busca que la red se autoorganice y encuentre ella misma las regularidades, correlaciones, categoras, etc de los datos de entrada. En este tipo de aprendizaje es preciso presentar un mayor nmero de patrones de entrada y utilizar reglas de aprendizaje distintas a las del caso anterior. Las arquitecturas de estas redes suelen ser distintas, destacando entre estas las de Kohonen y Grossberg. Este tipo de aprendizaje tiene mucha importancia en los sistemas biolgicos. 3. Aprendizaje reforzado.- es en cierta medida una variable del aprendizaje supervisado, pues tambin utiliza un supervisor que examina las salidas del sistema, sin embargo en este, no existen salidas deseadas o precisas, por lo que no se puede computar el error para cada unidad de salida. En este caso no tenemos un maestro, es mas bien un supervisor, que valora el comportamiento
global de la red mediante un criterio y en funcin de el modifica los pesos mediante un mecanismo de probabilidades. En el aprendizaje reforzado l os algoritmos son mas complejos que en el supervisado y el tamao de las muestras es superior.
7.2.6.2. Regla de Hebb (o regla del producto).
La regla de Hebb se expresa de la siguiente forma: cuando dos neuronas tienden a estar activas o inactivas de manera simultanea, la fuerza o intensidad de sus conexiones aumenta, o disminuye en caso contrario. Esta regla que originalmente no se expreso en trminos matemticos, se ha expresado matemticamente de varias formas.
La regla de Hebb es de aprendizaje no supervisado, pues no existe ninguna informacin externa que nos indique sobre si los resultados de las red son o no errneos. La regla de Heb hace que las unidades se influyan unas a otras y se configuran a partir de las reacciones a los estmulos percibidos.
7.2.6.3. Regla de Windrow-Hoff o regla delta o regla del menor error cuadrtico.
Esta red fue utilizada por primera vez en 1960 por Windrow y Hoff para la red ADALINE. Se trata de una regla de aprendizaje supervisado y consiste en modificar los pesos de conexiones a partir del clculo de la diferencia (o delta) entre las salidas de la red y las salidas deseadas.
Esta regla consiste en la presentacin por parte del maestro de un vector o patrn de entrada, si la red produce el patrn de salida deseado no se realiza cambio alguno, pero si existe discrepancia los pesos se cambian para reducir la diferencia. La modificacin de los pesos que se realiza se lleva a cabo en las neuronas o unidades que contribuyen a la diferencia, y se modifican en proporcin a su influencia en el error. As minimizamos el error o incluso podemos llevarlo a cero.
7.2.6.4. La regla delta Generalizada (o regla de propagacin hacia atrs).
La regla delta no se puede utilizar en redes con mas de dos capas, pues no seria posible conocer en que medida las capas ocultas contribuyen al error total. Dado que hay muchos problemas que no pueden resolver las redes de dos capas y si las multicapa, la regla delta generalizada es una modificacin de la regla delta para redes multicapa. Se atribuye su desarrollo a David E. Rumelhart, Goffrey Hinton y Robert J. Williams.
Esta regla trabaja con el modelo de aprendizaje supervisado y su aplicacin es valida solo en redes alimentadas hacia delante, y al igual que la regla delta, compara la respuesta emitida por la red con la respuesta deseada y reajusta los pesos sinpticos de todas las sinapsis de forma proporcional a la diferencia encontrada. La diferencia fundamental con la regla delta, es que en la regla delta generalizada el clculo se hace capa a capa, desde la capa de salida a la de entrada (de ah que se llame retropropagacin del error, o mejor, de la correccin del error).
La regla delta presenta dificultades caractersticas, por ejemplo, que se caiga en un mnimo local, es decir, en la minimizacin del error la red puede llegar a que cualquier pequeo cambio en los pesos hacia uno u otro lado incremente el error, en esta situacin la regla no es capaz de determinar en que direccin se tiene que mover para que con un incremento mayor el error vuelva a decrecer.
La regla delta generalizada es una de las mas empleadas en redes multicapa alimentadas hacia delante y supuso un impulso importante para el conexionismo por que consigui superar las dificultades matemticas descubiertas por Minsky y Papert que tanto frenaron la investigacin en redes neurales. Con este algoritmo podemos resolver el problema de la disyuncin exclusiva y el de la distincin entre T y C, que como hemos visto, eran un ejemplo de las limitaciones del perceptrn.
8. ALGUNOS MODELOS DE REDES NEURONALES.
8.1. Redes de McCulloch-Pitts o redes de neuronas formales.
McCulloch y Pitts en su trabajo de 1943 consideraron que las neuronas y su actividad poda estudiarse mediante la lgica proposicional. Consideraron las neuronas como de comportamiento biestatico, similares a los conmutadores elctricos (abierto-cerrado). Junto con la idea relativa al comportamiento supuestamente lgico de las neuronas propusieron construir maquinas de
computar con arquitectura similar a las neuronas. Consideraron que las leyes que gobiernan la mente tienen mas que ver con las leyes que gobiernan la informacin que con las leyes que gobiernan la materia. Dieron mas importancia al aprendizaje que a los factores innatos. Consideraron que nuestro cerebro comienza con redes aleatorias, y que la estimulacin configura esas redes de una determinada manera. Tratan pues el cerebro como un organismo computacional.
Demostraron como redes neurales sencillas con valor de umbral para la activacin eran capaces de representar las leyes lgicas fundamentales. Llamaron neuronas formales a las neuronas que componen estas redes. Aunque trataron de modelar los aspectos elementales de las neuronas biolgicas, las neuronas formales no eran mas que conmutadores lgicos, similares a los circuitos lgicos creados mediante simples interruptores.
La neurona toma como valores 0 y 1 para cuando esta desactiva y activada respectivamente, por lo que su funcin de activacin es de tipo umbral, la salida es 0 y 1 para cuando esta desactivada y activada respectivamente, por lo que su funcin de transferencia es de identidad. Las sinapsis, excitatorias o inhibitorias producen 1 y 0 respectivamente, independientemente del nmero de seales de excitacin o inhibicin que reciban. Esta es una de las diferencias fundamentales respecto a las que se usan actualmente.
8.2. Perceptrones.
Frank Rosenblatt rechazo el uso que McCulloch y Pitts hicieron de la lgica simblica aplicada a redes y defendi los mtodos probabilsticos, y llam perceptrones a unas redes tipo McCullochPitts capaces de modificar sus pesos de conexiones si las respuestas de la red no eran correctas y demostr que tales redes se podan entrenar para clasificar ciertos patrones sencillos en iguales o distintos.
El mecanismo de procesamiento del perceptrn es el siguiente:
1. El patrn a reconocer incide en la capa sensorial, y cada una de las unidades sensoriales responde con una seal digital (todo o nada).
2. Dichas seales se transmiten a las unidades de asociacin, que se activan si las sumas de sus entradas superan un determinado umbral. 3. Cuando la unidad de la capa asociativa se activa provoca una seal de salida, que va hasta las unidades de la capa de salida.
En esta red sy funcin de activacin es de tipo umbral, produciendo actividad con valores 0 y 1, y su funcin de transferencia es la funcin de identidad.
Se puede pensar que el perceptrn es una red multicapa, pero en realidad es de solo dos capas. Esto es as por que las conexiones entre las unidades sensitivas y de asociacin son fijas, no se modifican mediante el aprendizaje, por tanto las capas sensorial y de asociacin en trminos de computacin pueden ser consideradas unas sola capa.
El perceptrn era una red capaz de aprender. En su configuracin original a los pesos de conexiones se les asignaba un valor arbitrario, por lo que ante la presencia de estimulacin la red daba tambin patrones arbitrarios. Para conseguir el aprendizaje deseado se opera de la siguiente manera:
1. 2. a.
Si el patrn de entrada provoca una respuesta correcta no se hace ningn ajuste. Si el patrn de entrada provoca una respuesta errnea se procede del siguiente modo: Si la unidad deba estar activada y no lo esta, se aumentan los pesos de todas las conexiones.
b. Si la unidad deba esta desactivada un no lo esta se disminuyen los pesos de todas las conexiones.
En 1969 Minsky y Papert analizaron el modelo del perceptrn y concluyeron que este solo poda dar solucin a problemas linealmente separables, y dado que hay muchos problemas que no son linealmente separables concluyeron que dicho modelo era poco adecuado como clasificador de patrones. Tambin ampliaron su crtica afirmando que este problema tampoco lo podan resolver redes multicapa, cuestin que posteriormente se demostr falsa.
Decimos que un patrn es linealmente separable cuando el espacio de todas las entradas puede dividirse en dos regiones, quedando en uno de los lados del hiperplano las correspondientes a una categora y en el otro lado las correspondientes a la otra categora.
Se llaman hiperespacios a los espacios n-dimensionales, e hiperplanos a los objetos de n-1 dimensiones que dividen un hiperespacio de n dimensiones en varias regiones. En un espacio bidimensional, el hiperplano es una lnea recta que descompone el espacio en dos regiones. En el caso del espacio tridimensional, el hiperespacio es un plano y puede dividir el espacio en tres regiones. En la resolucin de problemas es til la referencia a los hiperplanos ya que permiten separar regiones de puntos de un hiperespacio en categoras individuales o clases.
Anlisis pormenorizado de la separabilidad lineal en pag 62 y sucesivas.
8.3. EL PANDEMONIUM: UN MODELO PARA EL RECONOCIMIENTO DE PATRONES.
8.3.1. La tarea de reconocimiento de patrones: dos explicaciones, el modelo de plantillas y el modelo de anlisis de caractersticas.
Una de las caractersticas del procesamiento visual humano es su flexibilidad. Podemos denominar reconocimiento de patrones al hecho de identificar distintos estmulos como pertenecientes a la misma clase. Los siclogos han presentado diversas teoras para explicar como esto se lleva a cabo.
Una de las teoras mas sencillas es la comparacin de plantillas, segn esta teora en nuestra mente hay una representacin o plantilla que se corresponde con cada forma conocida, por lo que se hace una compararon entre el objeto observado y la plantilla almacenada en la memoria.
Otra teora es el anlisis de caractersticas que defiende que nuestra mente no trabaja con copias exactas, sino con el anlisis de las caractersticas internas de cada patrn, cada patrn se representa mediante una lista de caractersticas. El patrn estimular activa los detectores de caractersticas y la activacin resultante es comparada con los patrones almacenados en la memoria.
8.3.2. El Pandemonium: rasgos principales.
El pandemonium fue propuesto por Selfridge en 1959 y es uno de los primeros y mas conocidos modelos de reconocimiento de patrones basado en el anlisis de caractersticas. Originalmente se concibi como un sistema para reconocer seales del cdigo Morse, pero despus se el dio una interpretacin psicolgica como modelo de reconocimiento alfanumrico.
El pandemonium consiste en varios conjuntos de unidades a las que Selfridge llamo demonios que realizan diferentes tareas. Los tipos de demonios son los siguientes:
1.
Demonios de imagen.- registran la imagen del smbolo externo.
2. Demonios de caractersticas.- analizan la imagen registrada, detecta las lneas verticales, horizontales, las curvas, etc. 3. Demonios cognitivos.- reciben y examinan la informacin de los demonios de caractersticas, cada demonio esta especializado en un tipo de forma, por ejemplo, la A, la B, 4, etc., y busca entre los datos que le ofrecen los demonios de caractersticas las caractersticas que los definen. 4. Demonios de decisin.- cuando un demonio cognitivo encuentra la caracterstica buscada grita, y cuantas mas descubre mas grita, as el demonio de decisin lo que hace es escuchar a los demonios cognitivos, seleccionar el mas fuerte y emitir la respuesta correspondiente.
Una cuestin muy importante para un diseador de pandemonium es determinar las caractersticas de cada patrn, a esta cuestin han tratado de dar respuestas autores como Gibson y Linsay y Norman.
A fin de cuentas un modelo de anlisis de caractersticas es similar a un modelo de comparacin e plantillas, la diferencia entre ambos estriba en que en uno lo que se compara es el elemento perceptual al completo, mientras que en el otro lo que se compara son las caractersticas definitorias que lo hacen posible. Mediante el anlisis de caractersticas podemos explicar aspectos como los explicados por la comparacin de plantillas, pero tambin otros.
8.3.3. El Pandemonium: base experimental.
La teora del anlisis de caractersticas goza de mayor apoyo experimental que la teora de plantillas. Aunque su base es amplia, tambin tiene sus dificultades.
8.3.4. El Pandemonium: dificultades.
La teora del anlisis de caractersticas y el Pandemonium en particular no pueden distinguir patrones como un T y una T invertida, tampoco puede distinguir ente algunas letras y esa misma vista en el espejo. El problema es que el Pandemonium se fija en los elementos constituyentes, pero no en sus relaciones estructurales. Otra de las dificultades de estos modelos es que no se recoge informacin contextual. En cuento a la realizacin del Pandemonium, resulta relevante mencionar que el Pandemonium interpreta lo que nosotros antes hemos interpretado en el momento de su programacin, no interpreta el estmulo mismo. Por otro lado el Pandemonium tiene serios problemas para funcionar correctamente en situaciones de la vida real, es decir, carece de validez ecolgica.
8.3.5. El Pandemonium y el conexionismo.
Este modelo de identificacin de patrones se puede incluir dentro del conexionismo, pues presenta algunos de sus rasgos principales:
1.
Existen muchas unidades de procesamiento.
2. La informacin se almacena en un conjunto amplio de demonios, y cada letra es el resultado de la activacin de un conjunto de demonios. 3. 4. 5. Los demonios actan de manera simultnea. Las unidades estn conectadas entre si formando diversos niveles o capas. La entrada y salida estn conectadas entre si formando niveles o capas.
6. El computo que se realiza es cuantitativo y probabilstico. Los demonios de caractersticas envan informacin cuantitativa a los demonios cognitivos y estos a su vez a los demonios de decisin, gritando mucho, poco o nada.
Pero entre el Pandemonium y el conexionismo tambin hay diferencias:
1. 2.
El modo de representacin. En el Pandemonium solo hay conexiones excitatorias.
3. Las redes conexionistas el grado de distribucin de la informacin es mayor, sus unidades no tienen de manera independiente un significado consideradas de manera aislada. En el Pandemonium, si hay informacin significativa al nivel de los demonios de caractersticas, donde la informacin se representa de manera localista, y no distribuida. Aunque tambin hay otras redes como la NETtalk que incluye representaciones locales. 4. El Pandemonium no explica con precisin como se producen los modificaciones cuantitativas en los demonios ni la magnitud de seal que enva a los demonios cognitivos. 5. No aparecen conceptos tpicos de las redes conexionistas, como umbral, funcin de activacin, funcin de transferencia.... 6. El Pandemonium carece de capacidad de aprendizaje, aunque puede reconocer patrones no puede modificar el estado de sus unidades como ocurre en las redes conexionistas. Por tanto, el Pandemonium depende enteramente de la programacin que haya hecho el diseador para el reconocimiento de caracteres.
Sin embargo estas diferencias no son significativas, pues unas son de ndole esttico, y la mayora se deben a la falta de concrecin de este modelo. Es decir, al tratar de simular este modelo en un ordenador es preciso concretar con precisin todos los valores cuantitativos que son ignorados en el modelo, a la vez que hay que definir las funciones matemticas que los hacen posibles. Con estos cambios, que no modifican el modelo, sino que le asigna valores a los diferentes parmetros, el Pandemonium tendra el aroma de los modelos conexionistas tradicionales.
El punto en el que las diferencias entre el Pandemonium y las redes conexionistas se separan es en el referido al aprendizaje. El pandemonium no tiene capacidad de aprender por si mismo, al contrario de lo que ocurre con las redes conexionistas. El pandemonium requiere reglas para realizar el procesamiento. Las reglas se pueden enternder de dos formas:
1. Las reglas son precisas para disear una arquitectura del procesador, son un modo de fijar como funciona una red especificando el modo en el que las unidades de la red se comportan, es
decir, es preciso delimitar los niveles de umbral, la funcin de activacin, la funcin de transferencia, etc. Las reglas as concebidas es la manera de especificar la estructura material que tiene de comportarse la red. Concebidas as las reglas, existen reglas tanto en el Pandemonium como en cualquiera de los modelos conexionistas. 2. Por otra lado las reglas se pueden referir a como se realiza el procesamiento, en este sentido decir que no existen reglas es lo mismo que decir que no hay una regla escrita que permita diferenciar los caracteres que estn compuestos por solo lneas rectas, o por lneas rectas y curvas. En el conexionismo donde no existen reglas es en el procesamiento en si, no en la estructura que permite dicho procesamiento. En el Pandemonium el programador tiene que definir cuales son los criterios para diferenciar unas letras de otras, mientras que en el conexionismo es la red la que aprende a diferenciar unas letras de otras.
8.4. NETtalk: APRENDER A LEER EN INGLS.
Terrence Sejnowsky y Charles Rosenberg presentaron en 1986 la red NETtalk, cuya finalidad era leer y hablar textos en ingles.
La NETtalk tiene tres capas interconectados por cerca de 20.000 sinapsis, y esta constituida de la siguiente manera:
1. La capa de entrada esta formada por 203 unidades distribuidas en 7 grupos de 29 unidades cada uno. 2. 3. La capa oculta consta de 80 unidades. La capa de salida la forman 26 unidades.
De las 29 neuronas de cada grupo de la capa de entrada, 26 codifican cada una de las letras del alfabeto ingles y las otras tres se encargan de la puntuacin y los limites entre palabras. Dado que solo hay siete grupos, la red no puede reconocer mas que siete caracteres como mximo de manera simultanea. Las unidades de salida o motoras codifican las dimensiones fundamentales del habla, fonemas, acentos hiatos, etc.
La red transforma los datos de entrada (las letras) en fonemas o sonidos. Dado que los pesos originales se establecieron al azar, en principio los resultados no eran buenos. Se realizo un entrenamiento que consista en unas 50.000 presentaciones de 1000 palabras del habla corriente de un nio; un supervisor controlaba la correccin de respuesta de la red y modificaba los pesos mediante la regla delta generalizada (entrenamiento con propagacin hacia atrs). Tras este entrenamiento lo maquina consegua hablar con una exactitud del 95%.
Resultan sorprendentes algunas semejanzas entre la NETtalk y la capacidad lingstica humana:
1. Aumento de la eficacia: las primeras respuesta parecen los balbuceos de un bebe, que van mejorando con el entrenamiento hasta llegar a textos inteligibles. 2. Capacidad de generalizacin: al presentarle nuevas palabras el sistema es capaz de leer y pronunciar con una exactitud del 78%. 3. Degradacin elegante: la destruccin de algunos elementos de la red no tiene consecuencias catastrficas en el rendimiento total, simplemente disminuye le rendimiento.
Las propiedades citadas son las que cabria esperar de un sistema de procesamiento distribuido y paralelo, y sin duda resulta mas eficaz para modelar la capacidad humana de deteccin de patrones que los modelos de plantillas y de anlisis de caractersticas.
9. REDES NEURONALES PARA EXPLICAR EL CONEXIONISMO.
Cuando nos adentramos en los postulados y tesis del conexionismo cabe preguntarse que es lo que esta teora pretende explicar, la mente o el cerebro. La respuesta habitual es que las redes conexionistas se han diseado para tratar de dar respuestas a los asuntos relacionados con la mente, mientras que las redes creadas en la neurociencia tratan de dar cuenta de los procesos puramente cerebrales.
Con el trmino psicobiologa nos referimos al enfoque que intenta dar respuesta al mundo de la mente y de la conducta a partir de elementos, estructuras y procesos biolgicos. Una parte importante de esta disciplina es como las sustancias qumicas, sean endgenas o exgenas, influyen en la conducta. Pero tambin parece claro que la arquitectura y procesos del sistema nervioso (psiconeurologa) tambin influyen en la conducta, y que por tanto tambin deberan
formar parte de la psicobiologa. En el momento actual disponemos de explicaciones biolgicas para explicar multitud de fenmenos psicolgicos.
Aunque merecera un anlisis muy cuidadoso, parece que el conexionismo tiene como destino explicar una parte de la psicobiologa, antes de lo que tradicionalmente entendemos por biologa.
El conexionismo oscila entre las siguientes posiciones:
1. La inteligencia artificial.- las redes que se construyen no intentan emular el funcionamiento del cerebro, solamente imitar competencias tpicamente humanas para implementarlas en sistemas no biolgicos como ordenadores y robots. 2. La biologa.- si se construyen redes que quieren ser files a los mecanismos y estructuras del sistema nervioso y se las utiliza para dar cuenta de competencias tradicionalmente atribuidas a la mente (lenguaje, percepcin, memoria...) este enfoque no es psicologa, sino psiconeurologa y sus descubrimientos pueden tener relevancia para la Inteligencia Artificial.
El conexionismo parece ser una teora que apela al cerebro para explicar competencias atribuidas tradicionalmente a la mente. Con este se quiere sugerir que desde el conexionismo se defiende la tesis de que lo mental no tiene estatuto propio, la vida mental no posee ningn tipo de regularidades que puedan dar lugar a una disciplina independiente de la biologa. En esta lnea se incluyen las tesis de dos de los representantes mas destacados en la reflexin terica sobre los valores y limites del conexionismo, los Churchland.
Por otro lado, la idea de que es necesario comprender el funcionamiento de las estructuras nerviosas para dar cuenta de los procesos mentales, se encuentra en los orgenes mismos del conexionismo y ha dado lugar a hiptesis que cierto apoyo experimental, as tenemos:
1. La regla de aprendizaje descubierta por Hebb quera descubrir el modo real en que se relacionan las neuronas en el cerebro para formar asociaciones estables entre ellas. 2. McCulloch y Pitts defendieron que las redes neuronales de los crtices auditivo y visual eran capaces de reconocer propiedades invariantes de un mismo patrn, que las redes neuronales del colculo superior (involucradas en el control del movimiento de los ojos) podan generar el patrn a partir de ejemplos de dicho patrn.
3. Taylor propuso las redes que llevan su nombre para explicar la memoria asociativa y afirmo que reas de la corteza cerebral y el tlamo contenan esas redes. 4. En ese mismo contexto se sitan las teoras del cerebelo, del hipocampo, y del neocortex defendidas por Marr: a. El funcionamiento del cerebelo es semejante a las redes asociativas direccionales por contenido (ACAMs) y gracias a dicho funcionamiento los animales pueden realizar movimientos delicados y precisos. b. El hipocampo es el soporte fsico de la memoria a corto plazo o memoria de trabajo y puede clasificar patrones y recuperar un patrn a partir de datos fragmentarios porque tambin es un ACAM. c. Las representaciones que nos formamos de las clases y subclases se basa en el hecho de que el neocortex tiene una estructura y mecanismo similar al perceptrn.
MARIJOSE: Sabes quin fue Juana de Arco? -pues, Una drogadicta; -De dnde sacaste eso? -Pues del libro, dice que muri por herona. -------------Contrasea en Facebook de la PEPA : "alegre, furiosa, deprimida, triste, enojada" (por que le dijeron que eran mnimo 5 caracteres) --------------Seorita VENANCIA : Qu opina usted del papanicolau? responde: Sinceramente me caa mejor el papa Juan Pablo segundo. --------------La GLORIA dice: me dijo el doctor que me tomara 3 muestras de orina, pero nada ms me tom 2, sabe horrible!!!! -------------- Qu opinas sobre las hipotecas, Josefa? - Bueno me parece una excelente idea que los hipoptamos tengan donde bailar.... -------------- Le comunicamos que su avin viene demoradoHay qu lindo, ese es mi color favorito.... -------------- Josefa viste el Seor de los Anillos? - S, pero no le compr nada...
-------------- A ver Josefa... Simn Bolvar muri en...? - "fermo".... -------------Dice Josefa: - Qu pasa con el facebook? Me dice "su clave es incorrecta", entonces pongo "incorrecta" pero no abre!!!.. -------------Un cura en la iglesia dice: - Hoy confesar a todas las devotas. Se levanta Josefa y pregunta: - y las que vinimos en sandalias... cando nos toca? -------------- Al, 105?... - A sus rdenes... - Mire soy Josefa Daz y necesito que me ayude a abrir las puertas de mi auto. - De acuerdo... Donde est usted? - Estoy encerrada dentro de mi auto y me olvid las llaves afuera. -------------Josefa sale corriendo y grita: - "Auxilio, me robaron mi camioneta". Un seor se acerca y le pregunta... - 4 x 4? - Mmmmmm... 16... pero ahora aydeme. -------------Jugando a las escondidas... - Josefa!!!, ests detrs de la puerta de vidrio. -------------Seorita Jesusa: - Qu opina usted sobre la gelatina? - Bueno en realidad no s qu decir. En mi escuela slo conoc la "Y " griega y la "I " latina, pero la "G " latina nunca supe de ella, a lo mejor no fui ese da a clases. -------------Seorita Josefa... Le corto su pizza en 4 o en 8? - En 4 noms, no creo que me coma 8 pedazos. -------------- Dgame Josefa.. A qu corresponde esta formula qumica H2O+CO+CO - Bueno, tampoco soy tan bruta no?, pues eso es agua... de coco...

Teorías Conexionistas

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Teorías Conexionistas

Caricato da

Copyright:

Formati disponibili

TEORAS CONEXIONISTAS

2. CARACTERSTICAS GENERALES DE LOS MODELOS CONEXIONISTAS.

la lgica borrosa las redes neuronales razonamiento aproximado

Los elementos caractersticos presentes en la mayora de los modelos conexionistas son:

La red es un conjunto de unidades de procesamiento muy simples.

3. IMPLEMENTACION DE LAS REDES NEURONALES.

4. CAMPOS DE APLICACIN DE LAS REDES NEURONALES.

5. DIFERENCIAS ENTRE EL CONEXIONISMO Y LOS MODELOS COGNITIVOS TRADICIONES.

5.1. Inspiracin neurofisiolgica.

En las neuronas cabe destacar las siguientes partes fundamentales:

5.2. El procesamiento es paralelo, no serial.

5.3. Procesamiento distribuido.

Sencillos ejemplos de procesamiento distribuido lo podemos encontrar en:

5.4. Computacin sin reglas.

5.5. Degradacin elegante. Tolerancia a los fallos.

6. BREVE HISTORIA DEL CONEXIONISMO.

6.1. Hasta la primera mitad del siglo XX.

6.2. Aos 50 y 60.

6.2.1. La memoria asociativa.

6.2.2. El reconocimiento de patrones.

6.2.3. Limitaciones de los perceptrones y adalines elementales.

6.3. Aos 60 y 80.

7. ELEMENTOS DE LAS ARQUITECTURAS CONEXIONISTAS.

Conceptos y elementos de la arquitectura conexionista Las unidades

Las conexiones entre las unidades (las sinapsis) El peso sinptico

7.1. Conceptos y elementos de la estructura conexionista.

7.1.1. Las unidades.

Existen tres tipos de unidades:

7.1.2. Las conexiones entre las unidades (las sinapsis).

Las sinapsis pueden ser de dos tipos:

7.1.3. Peso sinptico o peso de la conexin.

El peso sinptico es un de los conceptos mas importantes por varias razones:

Los cmputos que hace la red dependen de los pesos de conexin.

7.1.4. El patrn de conexin.

El peso asociado a cada una de las conexiones, wij.

La notacin empleada en las redes neuronales no es unnime:

Las unidades o neuronas se representan como u o como n.

7.2.2. La entrada (input) total. La regla de propagacin.

NETi(t+1) = wij * oj(t)

7.2.3. El estado de activacin.

7.2.4. La regla de activacin.

7.2.4.1. Concepto y formula general.

7.2.4.2. Tipos de funciones de activacin.

7.2.5. La salida de las unidades. La funcin de transferencia.

7.2.5.1. Concepto y formula general de la funcin de transferencia.

7.2.5.2. Tipos de funcin de salida o de transferencia.

Funcin de identidad o funcin lineal.

Funcin de umbral o funcin de escaln.

Hay varias funciones de saturacin siendo la mas usada la funcin sigmoide.

7.2.6. Reglas de aprendizaje.

7.2.6.1. Conceptos y modelos de aprendizaje.

Existen varios modelos de aprendizaje, de los que los principales son:

7.2.6.2. Regla de Hebb (o regla del producto).

7.2.6.4. La regla delta Generalizada (o regla de propagacin hacia atrs).

8. ALGUNOS MODELOS DE REDES NEURONALES.

8.1. Redes de McCulloch-Pitts o redes de neuronas formales.

El mecanismo de procesamiento del perceptrn es el siguiente:

Anlisis pormenorizado de la separabilidad lineal en pag 62 y sucesivas.

8.3. EL PANDEMONIUM: UN MODELO PARA EL RECONOCIMIENTO DE PATRONES.

8.3.2. El Pandemonium: rasgos principales.

Demonios de imagen.- registran la imagen del smbolo externo.

8.3.3. El Pandemonium: base experimental.

8.3.4. El Pandemonium: dificultades.