Diseño Analisis y Aplicaciones de Sistemas Inteligentes.

Universidad de Granada
E.T.S. Ingeniera Informatica
Diseno, Analisis y Aplicaciones de Sistemas Inteligentes
Aprendizaje de Sistemas

Redes Neuronales Artificiales
Jose Manuel Bentez Sanchez

J.M.Benitez@decsai.ugr.es
Granada, enero de 2001
Indice
Introduccion
Aprendizaje en RNA
El perceptron
Ingeniera de RNA
Bibliografa

Introducci
on
Introducci
on
Inteligencia Artificial:
Aproximar el proceso
Aproximar el organo
Organo
de la Inteligencia: Cerebro
RNA: Disciplina de caracter tecnica con races en muchos campos: Neurociencia,
Matematicas (especialmente Estadstica), Fsica, Biologa, Psicologa Cognitiva,
Filosofa, Informatica e Ingeniera.

Origen biologico
Definicion
Aplicaciones
Componentes de una RNA

Origen biol
ogico: neurona

Definici
on
(De Haykin, 1999):

RNA: Procesador distribuido masivamente paralelo construido a partir de unidades
de procesamiento simples que tiene una propension natural para almacenar
conocimento experimental y utilizarlo. Se parece al cerebro en dos aspectos:
1. Extrae conocimiento del entorno a traves de un proceso de aprendizaje
2. Las fuerzas de interconexion neuronal o pesos son usadas para almacenar el
conocimiento adquirido

Aplicaciones
1. Reconocimiento de patrones (p.ej.: dgitos manuscritos)

2. Agrupamiento
3. Aproximacion de funciones
4. Prediccion
5. Asociacion de patrones
6. Memoria asociativa
7. Control
8. Optimizacion

Componentes de una RNA
1. Arquitectura
(a) Neuronas
(b) Enlaces
(c) Topologa
2. Aprendizaje

Neuronas
Formulaci
on de McCulloch-Pitts

Neurona (II)
x1
x2
xn
w1
w2
fA
wn
Entrada efectiva a la neurona:

N=
wixi
(1)

10
Funciones de activaci
on
Funciones sigmoides: continuas y derivables con forma de S.

Funci
on Logstica
Funci
on Tangente Hiperb
olica
0.5
0
-10
fA(N ) =
-1
0
10
1
1 + exp(N )
-10
10
f (N ) = tanh(N )
A veces, tambien funci

on lineal en las salidas

11
Topologa
Nodos simples = Poca capacidad de calculo

Potencia real de una RNA: Interconexion
Topologa: Patron de Interconexion.

12
Topologa hacia adelante
Propagaci
on de las se
nales en un solo sentido (feedforward).
Organizaci
on habitual por capas, con neuronales iguales. El n
umero de neuronas
por capa puede ser distinto en cada capa
No es necesaria una estructuraci

on perfecta en capas: Grafo Dirigido Acclico

13
El papel de las capas ocultas
Proporcionar un cambio de variable para hacer linealmente separable el problema

Extraccion de caractersticas
Construir superficies de decision m
as complejas

14
Topologa con realimentaci

on
S se permiten conexiones hacia atras e intracapa

Evoluci
on paso a paso hasta lograr la convergencia

Aprendizaje
15
Aprendizaje
Concepto
Aprendizaje supervisado y no supervisado
Reglas de aprendizaje:
Correccion de error
Aprendizaje hebbiano
Aprendizaje competititvo
Aprendizaje probabilstico
Aprendizaje por refuerzo
El Aprendizaje como optimizaci

on

Aprendizaje
16
Concepto de Aprendizaje
Aprendizaje: Capacidad para modificar el comportamiento mediante la experiencia.

Aprendizaje Automatico: Disciplina encarga de estudiar y desarrollar programas
informaticos que mejoran con la experiencia
Aprendizaje de Redes Neuronales: Proceso por el que los parametros libros de
una red neuronal son adaptados de acuerdo con los estmulos de su entorno
Algoritmo de aprendizaje: algoritmo para ajustar los pesos de una R.N.A.

Aprendizaje
17
Tipos de aprendizaje
Supervisado: Se conoce la respuesta correcta de cada ejemplo y se utiliza. El

ajuste persigue acercar la respuesta de la red a la esperada.
Variante importante: aprendizaje por refuerzo. No se dispone de respuesta
exacta. S
olo de una senal de refuerzo que indica si la respuesta es correcta o
no. Puede ser con retraso.
No supervisado: No se conocen las salidas correctas. La red debe encontrar
regularidades entre los datos de entrada y tiende a agrupar los ejemplos con
entradas similares. Habitualmente debe realizar alg
un tipo de compresi
on de
datos.

Aprendizaje
18
Aprendizaje por correcci

on de error
El comportamiento de una RNA viene definido por una funci

on: F(x, w). x,
entrada; w, parametros libres.
Sea el conjunto de datos: {(xk , k )}
Error cometido por la red:
X
k k yk k
(2)
w = G(w, x, y)
(3)
E=
Aprender = Corregir el error:

Aprendizaje
19
Aprendizaje hebbiano
Dos reglas:
1. Si las dos neuronas conectadas por un enlace estan activas simult
aneamente, el
enlace es reforzado
2. Si las dos neuronas conectadas por un enlace se activan asncronamente, el
enlace se debilita
Caractersticas:
Dependencia temporal
Regla local
Mecanismo interactivo
w = xy
(4)

Aprendizaje
20
Aprendizaje competitivo
Las neuronas de salida compiten entre s por la activaci

on
Neuronas con respuestas distintas
Lmite a la activacion de cada neurona
Mecanismo de competicion: Winner-takes-all

Aprendizaje
21
Aprendizaje probabilstico
Ajuste NO determinstico
Funci
on de energa:
1 XX
E=
wij xk xj
2 j i
(5)
Probabilidad del cambio de estado:

1
p(xk xk ) =
1 + exp(E/T )
(6)

Aprendizaje
22
Aprendizaje como optimizaci

on
La inmensa mayora de los metodos de aprendizaje emplean un algoritmo de

optimizaci
on subyacente como metodo de ajuste.
Suele ser una funcion fuertemente no lineal = metodos aproximados:
Descenso en Gradiente
Gradiente Conjugado
Enfriamiento Simulado
Algoritmos evolutivos

El Perceptron
23
Perceptrones
El perceptron
Arquitectura
Algoritmo de entrenamiento de Rosenblatt
La regla delta
Limitaciones del perceptron
La funci
on XOR
El perceptron multicapa
Arquitectura
La neurona
Topologa
El algoritmo de retropropagaci
on de errores
Metodos avanzados

El Perceptron
24
El perceptron
Porpuesto por Rosenblatt en 1985

Red de propagaci
on hacia adelante con una sola capa:
x1
x1
x2
xn
w1
w2
fA
wn
x2
x3
con fA la funci
on umbral o signo.

El Perceptron
25
Algoritmo de Rosenblatt
1:
2:
3:
4:
5:
6:
Iniciar w aleatoriamente
while haya ejemplos mal clasificados do
Seleccionar aleatoriamente un ejemplo (x, d)
Calcular la salida y y comparar con d
w = (d y)
end while
TEOREMA:
El conjunto de datos {(x, d)} es finito y linealmente separable, el algoritmo
anterior encuentra una soluci
on en un tiempo finito (converge).

El Perceptron
26
La regla delta
Regla basada en correccion del error: considerar el entrenamiento como

minimizacion del error
1X k
E(w) =
(o y k )2
2
(7)
w w + w
(8)
w = E(w)
X
=
(ok y k )xk
(9)
(10)

El Perceptron
27
Limitaciones del Perceptron
Minsky y Papert 1969: El perceptron solo puede reseprentar problemas

linealmente separables.
Existen funciones sencillas que NO puede representar el perceptron: funci
on
O-exclusiva (XOR).
x1
w1
S U
x2
w2

El Perceptron
28
La funci
on O-Exclusiva (XOR)
Funci
on logica de dos variables = Muy simple
(0, 1)
(1, 1)
=1
=0
(0, 0)
(1, 0)

El Perceptron
29
Un perceptron para calcular la funci

on XOR
El problema se puede resolver usando una unidad intermedia:

1
x1
1
1
x2
1,5
0,5
Soluci
on a las limitaciones del perceptron: usar redes neuronales con m
as de
una capa y unidades que puedan procesar se
nales continuas.

El Perceptron Multicapa
Arquitectura 30
El Perceptron Multicapa: Arquitectura
La neurona basica
Topologa de la red: hacia adelante

Arquitectura 31
La neurona b
asica
Variaci
on continua de la neurona de McCulloch-Pitts: funci
on de activaci
on
continua
x1
w1
x2 w2
y
fA
xn
wn
Entrada efectiva a la neurona:

N=
wixi
(11)

Arquitectura 32
Funciones de activaci
on
Funciones sigmoides: continuas y derivables con forma de S.

Funci
on Logstica
Funci
on Tangente Hiperb
olica
0.5
0
-10
fA(N ) =
-1
0
10
1
1 + exp(N )
-10
10
f (N ) = tanh(N )
A veces, tambien funci

on lineal en las salidas

Arquitectura 33
Topologa hacia adelante
Propagaci
on de las se
nales en un solo sentido (feedforward).
Organizaci
on habitual por capas, con neuronales iguales. El n
umero de neuronas
por capa puede ser distinto en cada capa
No es necesaria una estructuraci

on perfecta en capas: Grafo Dirigido Acclico

Arquitectura 34
Proporcionar un cambio de variable para hacer linealmente separable el problema

Construir superficies de decision m
as complejas

Algoritmo BP 35
on de errores
Resena Hist
orica
Idea del algoritmo
El algoritmo BP
Consideraciones
Particularizaciones
Tasa de aprendizaje y momento
Aprendizaje en lnea y en batch
Condiciones de parada
Limitaciones del algoritmo

Algoritmo BP 36
BP: Rese
na Hist
orica
Autores
Rumelhart, Hinton y Williams en 1986

Algoritmo BP 36
BP: Rese
na Hist
orica
Autores
Parker en 1982

Algoritmo BP 36
BP: Rese
na Hist
orica
Autores
Parker en 1982
Werbos 1974

Algoritmo BP 36
BP: Rese
na Hist
orica
Autores
Parker en 1982
Werbos 1974
Bryson y Ho, 1969

Algoritmo BP 36
BP: Rese
na Hist
orica
Autores
Parker en 1982
Werbos 1974
Bryson y Ho, 1969
?

Algoritmo BP 37
on de errores
Entrenamiento = minimizaci
on de una funci
on de error
Error: Diferencia entre salidas obtenidas y esperadas.
Regla : usa el error para ajustar los pesos entre las dos u
ltimas capas, pesos de
salida. Pero no es valida para los dem
as pesos: no conocemos su aportaci
on al
error.

Algoritmo BP 38
Idea del algoritmo
Consideracion: Las salidas de una capa son las entradas de la siguiente; propagar
hacia atras el error
Esquema iterativo en dos etapas:
1. Propagaci
on hacia adelante: Evaluar el nivel de activaci
on de las neuronas y
calcular el error de la red
2. Propagar el error hacia atras, capa a capa, modificando los pesos
Retropropagaci
on de errores: BACKPROPAGATION (BP).

Algoritmo BP 39
Notaci
on
Generalizaci
on de la Regla
Supongamos un sistema con n entradas y m salidas: dise
namos un perceptron con
n entradas y m neuronas en la capa de salida
Conjunto de pares de entrenamiento (xk , tk ), xk Rn, tk Rm, k = 1, 2, . . . , K
min E(w) =
w
ktk F (xk , w)k
(12)
w(n + 1) = w(n) + w(n)

= w(n) E
(13)
(14)

Algoritmo BP 40
Notaci
on (II)
Componentes del vector gradiente: derivadas parciales

E =
i
capa p 1
E
wij,p
wij,p
(15)
ij,p
j
capa p
Ajuste de los pesos:

wij,p(n) = +j,pyi,p1
(16)
j,p: valor asociado a cada unidad

Algoritmo BP 41
BP: El algoritmo
1:
2:
3:
4:
5:
6:
repeat
Seleccionar el siguiente par de entrenamiento.
Introducir la entrada en la red y calcular la salida que le corresponde.
Calcular el error (en terminos de norma cuadratica) entre la salida obtenida
y la salida deseada (el vector objetivo del par de entrenamiento).
Ajustar los pesos de la red de modo que se minimice el error.
until que se cumpla el criterio de parada

Algoritmo BP 42
El algoritmo en acci
on
Propagaci
on hacia Adelante
x1
x2
x3
entradas
capa oculta
capa de salida

Algoritmo BP 43
on
Propagaci
on hacia Adelante
x1
x2
x3
entradas
capa oculta
capa de salida

Algoritmo BP 44
on
Propagaci
on hacia Adelante
x1
x2
x3
entradas
capa oculta
capa de salida

Algoritmo BP 45
on
Propagaci
on hacia Adelante
x1
x2
x3
entradas
capa oculta
capa de salida

Algoritmo BP 46
on
Propagaci
on hacia Adelante
x1
x2
x3
entradas
capa oculta
capa de salida

Algoritmo BP 47
on
Propagaci
on hacia Atras
x1
x2
x3
entradas
capa oculta
capa de salida

Algoritmo BP 48
on
Propagaci
on hacia Atras
x1
x2
x3
entradas
capa oculta
capa de salida

Algoritmo BP 49
on
Propagaci
on hacia Atras
x1
x2
x3
entradas
capa oculta
capa de salida

Algoritmo BP 50
on
Propagaci
on hacia Atras
x1
x2
x3
entradas
capa oculta
capa de salida

Algoritmo BP 51
on
Propagaci
on hacia Atras
x1
x2
x3
entradas
capa oculta
capa de salida

Algoritmo BP 52
on
Propagaci
on hacia Atras
x1
x2
x3
entradas
capa oculta
capa de salida

Algoritmo BP 53
BP: Ajuste de pesos de salida

tj
yi,Q1 wij,Q
yj,Q
tj yj,Q
error
j,Q
j,Q = fA0 (Nj,Q)(tj yj,Q)
(17)

Algoritmo BP 54
BP: Ajuste de pesos intermedios

Q
wj1,Q
1,Q
Q1 y
j2,Q1 wj2,Q
j
2,Q
yj1,Q1
wij,Q1
j,Q1
yjm,Q1
wjm,Q
m m,Q
j,Q1 =
fA0 (Nj,Q1)
i,Qwji,Q
(18)

Algoritmo BP 55
BP en notaci
on matricial
Con notacion vectorial, la operaci

on del BP es mas compacta.
q , vector de valores delta
yq , salidas obtenidas
wq , pesos
t
q = Dq+1wq+1
[yq (1 yq )]
(19)
q = 1, 2, . . . , Q, donde 1 representa un vector con todas las componentes igual a 1

y una multiplicacion componente a componente.

Algoritmo BP 56
Consideraciones
Ajuste de tendencias
Tratadas como pesos de los enlaces de unidades ficticias.
Aplicacion a topologas m
as generales
Considerar las unidades en orden topol
ogico.

Algoritmo BP 57
Particularizaciones: Funci
on logstica
Su derivada es facil de calcular:

fA0 (N ) = fA(N )(1 fA(N ))
(20)
s para las neuronas de salida:

j,Q = (tj yj,Q)yj,Q(1 yj,Q),
(21)
s las unidades ocultas:

j,p = yj,pq (1 yj,p1)
i,pwji,p.
(22)

Algoritmo BP 58
Particularizaci
on: tangente hiperb
olica
Derivada facil de calcular:

fA0 (x) = 1 fA(x)2
(23)
2
),
j,Q = (tj yj,Q)(1 yj,Q
(24)
s para las neuronas de salida:
s para las neuronas ocultas:

j,p = (1
2
yj,p1
)
i,pwji,p.
(25)

Algoritmo BP 59
Tasa de Aprendizaje
Aproximacion de la trayectoria en el espacio de pesos. Tama

no del paso regulado
por :
pequena: trayectoria suave
grande: rapidez, pero tambien posibles oscilaciones

Algoritmo BP 60
Momento
Uso del momento: para aumentar la velocidad y reducir la oscilaci

on
wij (n) = j (n)yj (n) + wij (n 1)
(26)
es la constante del momento, [0, 1)

Algoritmo BP 61
BP en batch
No hay ajuste para cada ejemplo. Se acumulan los valores y se hace el ajuste
cuando se han evaluado todos
Concepto de
epoca
1:
2:
3:
4:
5:
6:
7:
8:
repeat
for cada par del conjunto de entrenamiento do
Introducir la entrada en la red y calcular la salida que le corresponde.
Calcular el error (en terminos de norma cuadratica) entre la salida obtenida
y la salida deseada (el vector objetivo del par de entrenamiento).
Calcular el de cada unidad y acumularlo
end for
Ajustar los pesos de la red de modo que se minimice el error.
until que se cumpla el criterio de parada

Algoritmo BP 62
Condiciones de parada (I)
No se puede demostrar la convergencia del BP: Criterios heursticos.

Gradiente cero.
Si w es extremo = E(w) = 0
Parar cuando se alcance E(w) = 0
Estado estacionario. Parar cuando el cambio en la funci
on de error E sea
suficientemente pequeno.
Gasto computacional fijo.

Algoritmo BP 63
Condiciones de parada (II)
Parada temprana.
Dividir el conjunto de datos en
entrenamiento: usado para ajustar los pesos
validaci
on: usado para valorar la capacidad de generalizaci
on
Se mide el nivel de error en entrenamiento y en validaci
on.
Parar cuando empiece a crecer el error en validaci
on.

Algoritmo BP 64
Limitaciones del BP
Presencia de mnimos locales

Eleccion de la funci
on de error
Sobreajuste
Lentitud
Sin fundamento biol
ogico

Metodos Avanzados 65
Retropropagaci
on de errores
Ajuste de los pesos:

wij,p(n) = +j,pyi,p1
(27)
j,Q = fA0 (Nj,Q)(tj yj,Q)
(28)
para unidades de salida:
para unidades ocultas:

j,Q1 =
fA0 (Nj,Q1)
i,Qwji,Q
(29)

Descenso en gradiente. Mejoras
Adaptaci
on de la tasa de aprendizaje
nuevo
(
anterior
=
anterior
siE < 0
siE > 0.
> 1; 0, 5
Tasa de aprendizaje por cada peso
QuickProp Aproximar la funci
on de error por un polinomio cuadratico y emplear
dos evaluaciones consecutivas de esta aproximaci
on:
(t)
(t+1)
wi
gi
(t1)
gi
(t)
wi ,
(t)
gi
(t)
gi =
E
(t)
wi

M
etodos m
as r
apidos
Gradiente Conjugado
Metodo de Newton
Metodo de Levenberg-Marquardt

T
ecnicas Heursticas
Enfriamiento Simulado
Algoritmos Geneticos
Programaci
on Genetica
Controladores Difusos

Ingeniera de RNA
69
Ingeniera de RNA
1. Seleccionar el conjunto de datos

Entradas, salidas, tipo
2. Establecer el modelo
Arquitectura, parametros de aprendizaje
3. Entrenar la red con el conjunto de datos
4. Validar la red
5. Aplicarla

Ingeniera de RNA
70
Preprocesamiento y Extracci
on de Caractersticas
Necesidad de transformar los datos

Transformaciones de entrada y salida
Reduccion de dimensionalidad
Valores desconocidos o err
oneos

Ingeniera de RNA
71
Preprocesamiento
Normalizaci
on y codificacion de Entradas
Escalado lineal; transformaciones no lineales
Datos discretos:
ordinales
categoricos
Datos desconocidos:
Reemplazar por media
Reemplazar por valores de regresi
on
Principio de m
axima probabilidad

Ingeniera de RNA
72
Selecci
Comparar subconjuntos de caractersticas

Depende del problema
B
usqueda:
Exhaustiva
Secuencial
Branch and Bound
Extracci
Analisis de Componentes Principales (PCA)
Conocimiento a Priori

Ingeniera de RNA
73
Funciones de Error
El aprendizaje de las RNAs es un problema de optimizaci
on: minimizar el error
cometido sobre un conjunto de ejemplos.
Suma de los cuadrados:
P
1X
E=
||yi(x; w) ti||2
2 i=1
Se emplea por simplicidad analtica
Se deriva del principio de m
axima probabilidad, suponiendo que la distribuci
on
de los datos objetivo es normal.
Raz media al cuadrado:
P
||y t||2
n
E= P
||t t||2

Ingeniera de RNA
74
Funciones de Error (II)
Error de Minkowski
Con ejemplos muy atpicos, su aportaci
on al error puede ser demasiado determinante
E=
||y t||R
R < 2 atenua este efecto.

Ingeniera de RNA
75
Funciones de Error para Clasificaci

on
Depende la codificacion. Habitual: 1 de c.

Suma de cuadrados
Entropa cruzada:
E=
t ln y

Ingeniera de RNA
76
Algoritmos para Optimizaci

on de Par
ametros
Superficies de Error
Algoritmos Iterativos
Orden de convergencia:
w(t+1) = w(t) + w(t)
(t+1) ((t))L
Alto grado de simetra en el espacio de pesos

Ingeniera de RNA
77
Aprendizaje y Generalizaci
on
Objetivo del aprendizaje: construir un modelo estadstico del proceso que genera
los datos
Necesidad de controlar la complejidad del modelo
Balance entre tendencia y varianza
Regularizaci
on
Estabilizaci
on estructural
Entrenamiento con ruido

Ingeniera de RNA
78
Tendencia y varianza
El error de generalizaci
on se puede descomponer en dos partes:
tendencia: La diferencia en media de la funci
on que calcula la red y la que
pretende aproximar
varianza: Mide la sensibilidad respecto al conjunto de datos empleado
Existe una relacion de conflicto natural entre tendencia y varianza. Es necesario
encontrar un punto de equilibrio
Minimizando la tendencia y la varianza:
Usar mas datos
Conocimiento a priori

Ingeniera de RNA
79
Regularizaci
on
A
nadir un termino a la funci
on de error que regule la complejidad del modelo:
= E +
E
: Penalizacion para modelos complejos
: regula el grado de aplicaci
on de la penializaci
on
Tecnicas de regularizaci
on:
Reduccion de pesos:
1X 2
=
w
2 i i
Parada temprana
Suavizamiento guiado por curvatura

Ingeniera de RNA
80
Entrenamiento con ruido
A
nadir ruido aleatorio (distribuido seg
un una normal) a los datos de
entrenamiento. Esto evita el sobreajuste.
Estabilizaci
on estructural
Comparar redes de distinta complejidad
Poda
Crecimiento
Combinar las salidas de distintas redes

81
Complejidad del Aprendizaje
El problema general de aprendizaje de una RNA consiste en encontrar los

elementos desconocidos de una RNA dada (pesos, funciones de activaci
on,
conexiones).
Este problema es NP-completo

82
Aplicaciones
Codificacion/encriptaci
on de informaci
on
Lectura de textos
Reconocimiento de escritura
Problemas de decision
Prediccion de series temporales: precios, bolsa, cambio de divisas
Restauracion de imagenes
Diagn
ostico medico

83
Optimizacion combinatoria
Control adaptativo
Identificacion de sistemas desconocidos

84
Propiedades
Capacidad de aprendizaje y adaptaci

on
Capacidad de generalizaci
on
Capacidad de almancenamiento y memoria
Aproximacion Universal
Inmunidad frente al ruido
Modelos de representacion subsimb
olica del conocimiento
Naturaleza masivamente paralela: rapidez
Modelos de calculo

85
Inconvenientes
Caracter de Caja Negra

Diseno: seleccion de modelo y topologa
Seleccion del conjunto de ejemplos
Problemas de entrenamiento

Bibliografa
86
Bibliografa
C. Bishop. Neural Networks for Pattern Recognition. Springer-Verlag, 1995.
S. Haykin. Neural Networks. Prentice-Hall, 1999.
J.R. Jang, C.-T. Sun y E. Mizutani. Neuro-Fuzzy and Soft Computing. PrenticeHall, 1997.
D. Nauck, F. Klawonn and R. Kruse. Foundations of Neuro-Fuzzy. Chichester:
Wiley, 1997
B.D. Ripley. Pattern Recognition and Neural Networks. Cambridge University
Press, 1996.
R. D. Reed y R. J. M. II. Neural Smithing. Supervised Learning in Feedforward
Artificial Neural Networks. The MIT Press, 1999.
R. Rojas. Neural Networks. A Systematic Introduction. Springer-Verlag, 1995.

Bibliografa
87
Revistas
Neural Networks
IEEE Trans. on Neural Networks
Neurocomputing
Neural Comptutation

Bibliografa
88
Recursos en Internet
http://ftp.sas.com/pub/neural/FAQ.html
http://www.emsl.pnl.gov:2080/proj/neuron/neural/what.html
http://www.cs.stir.ac.uk/ lss/NNIntro/InvSlides.html
http://umtii.fme.vutbr.cz/MECH/nn.html
news://comp.ai.neural-nets
news://comp.ai.fuzzy
news://es.comp.ai.neural

Diseño Analisis y Aplicaciones de Sistemas Inteligentes.

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Diseño Analisis y Aplicaciones de Sistemas Inteligentes.

Caricato da

Copyright:

Formati disponibili

Universidad de Granada

E.T.S. Ingeniera Informatica

Diseno, Analisis y Aplicaciones de Sistemas Inteligentes

Redes Neuronales Artificiales

Jose Manuel Bentez Sanchez

Granada, enero de 2001

Redes Neuronales Artificiales

Redes Neuronales Artificiales

Redes Neuronales Artificiales

Redes Neuronales Artificiales

(De Haykin, 1999):

Redes Neuronales Artificiales

1. Reconocimiento de patrones (p.ej.: dgitos manuscritos)

Redes Neuronales Artificiales

Componentes de una RNA

Redes Neuronales Artificiales

Redes Neuronales Artificiales

Entrada efectiva a la neurona:

Redes Neuronales Artificiales

Funciones sigmoides: continuas y derivables con forma de S.

A veces, tambien funci

Redes Neuronales Artificiales

Nodos simples = Poca capacidad de calculo

Redes Neuronales Artificiales

Topologa hacia adelante

No es necesaria una estructuraci

Redes Neuronales Artificiales

El papel de las capas ocultas

Proporcionar un cambio de variable para hacer linealmente separable el problema

Redes Neuronales Artificiales

Topologa con realimentaci

S se permiten conexiones hacia atras e intracapa

El Aprendizaje como optimizaci

Aprendizaje: Capacidad para modificar el comportamiento mediante la experiencia.

Supervisado: Se conoce la respuesta correcta de cada ejemplo y se utiliza. El

Aprendizaje por correcci

El comportamiento de una RNA viene definido por una funci

Aprender = Corregir el error:

Las neuronas de salida compiten entre s por la activaci

Probabilidad del cambio de estado:

Aprendizaje como optimizaci

La inmensa mayora de los metodos de aprendizaje emplean un algoritmo de

Porpuesto por Rosenblatt en 1985

Regla basada en correccion del error: considerar el entrenamiento como

Limitaciones del Perceptron

Minsky y Papert 1969: El perceptron solo puede reseprentar problemas

Un perceptron para calcular la funci

El problema se puede resolver usando una unidad intermedia:

El Perceptron Multicapa: Arquitectura

Entrada efectiva a la neurona:

Funciones sigmoides: continuas y derivables con forma de S.

A veces, tambien funci

Topologa hacia adelante

No es necesaria una estructuraci

El papel de las capas ocultas

Proporcionar un cambio de variable para hacer linealmente separable el problema

Idea del algoritmo

ktk F (xk , w)k

w(n + 1) = w(n) + w(n)

Componentes del vector gradiente: derivadas parciales

Ajuste de los pesos:

j,p: valor asociado a cada unidad

BP: Ajuste de pesos de salida

j,Q = fA0 (Nj,Q)(tj yj,Q)