Sei sulla pagina 1di 93

Universidad de Granada

E.T.S. Ingeniera Informatica

Diseno, Analisis y Aplicaciones de Sistemas Inteligentes

Aprendizaje de Sistemas


Redes Neuronales Artificiales

Jose Manuel Bentez Sanchez


J.M.Benitez@decsai.ugr.es

Granada, enero de 2001

Indice

Introduccion
Redes Neuronales Artificiales
Aprendizaje en RNA
El perceptron
Ingeniera de RNA
Bibliografa

   

Introducci
on

Introducci
on

Inteligencia Artificial:
Aproximar el proceso
Aproximar el organo

Organo
de la Inteligencia: Cerebro
RNA: Disciplina de caracter tecnica con races en muchos campos: Neurociencia,
Matematicas (especialmente Estadstica), Fsica, Biologa, Psicologa Cognitiva,
Filosofa, Informatica e Ingeniera.

   

Redes Neuronales Artificiales

Redes Neuronales Artificiales

Origen biologico
Definicion
Aplicaciones
Componentes de una RNA

   

Redes Neuronales Artificiales

Origen biol
ogico: neurona

   

Redes Neuronales Artificiales

Definici
on

(De Haykin, 1999):


RNA: Procesador distribuido masivamente paralelo construido a partir de unidades
de procesamiento simples que tiene una propension natural para almacenar
conocimento experimental y utilizarlo. Se parece al cerebro en dos aspectos:
1. Extrae conocimiento del entorno a traves de un proceso de aprendizaje
2. Las fuerzas de interconexion neuronal o pesos son usadas para almacenar el
conocimiento adquirido

   

Redes Neuronales Artificiales

Aplicaciones

1. Reconocimiento de patrones (p.ej.: dgitos manuscritos)


2. Agrupamiento
3. Aproximacion de funciones
4. Prediccion
5. Asociacion de patrones
6. Memoria asociativa
7. Control
8. Optimizacion
   

Redes Neuronales Artificiales

Componentes de una RNA

1. Arquitectura
(a) Neuronas
(b) Enlaces
(c) Topologa
2. Aprendizaje

   

Redes Neuronales Artificiales

Neuronas

Formulaci
on de McCulloch-Pitts

   

Redes Neuronales Artificiales

Neurona (II)

x1
x2
xn

w1
w2

fA

wn

Entrada efectiva a la neurona:


N=

wixi

(1)

   

Redes Neuronales Artificiales

10

Funciones de activaci
on

Funciones sigmoides: continuas y derivables con forma de S.


Funci
on Logstica

Funci
on Tangente Hiperb
olica

0.5

0
-10

fA(N ) =

-1
0

10

1
1 + exp(N )

-10

10

f (N ) = tanh(N )

A veces, tambien funci


on lineal en las salidas

   

Redes Neuronales Artificiales

11

Topologa

Nodos simples = Poca capacidad de calculo


Potencia real de una RNA: Interconexion
Topologa: Patron de Interconexion.

   

Redes Neuronales Artificiales

12

Topologa hacia adelante

Propagaci
on de las se
nales en un solo sentido (feedforward).
Organizaci
on habitual por capas, con neuronales iguales. El n
umero de neuronas
por capa puede ser distinto en cada capa

No es necesaria una estructuraci


on perfecta en capas: Grafo Dirigido Acclico

   

Redes Neuronales Artificiales

13

El papel de las capas ocultas

Proporcionar un cambio de variable para hacer linealmente separable el problema


Extraccion de caractersticas
Construir superficies de decision m
as complejas

   

Redes Neuronales Artificiales

14

Topologa con realimentaci


on

S se permiten conexiones hacia atras e intracapa


Evoluci
on paso a paso hasta lograr la convergencia

   

Aprendizaje

15

Aprendizaje

Concepto
Aprendizaje supervisado y no supervisado
Reglas de aprendizaje:

Correccion de error
Aprendizaje hebbiano
Aprendizaje competititvo
Aprendizaje probabilstico
Aprendizaje por refuerzo

El Aprendizaje como optimizaci


on

   

Aprendizaje

16

Concepto de Aprendizaje

Aprendizaje: Capacidad para modificar el comportamiento mediante la experiencia.


Aprendizaje Automatico: Disciplina encarga de estudiar y desarrollar programas
informaticos que mejoran con la experiencia
Aprendizaje de Redes Neuronales: Proceso por el que los parametros libros de
una red neuronal son adaptados de acuerdo con los estmulos de su entorno
Algoritmo de aprendizaje: algoritmo para ajustar los pesos de una R.N.A.

   

Aprendizaje

17

Tipos de aprendizaje

Supervisado: Se conoce la respuesta correcta de cada ejemplo y se utiliza. El


ajuste persigue acercar la respuesta de la red a la esperada.
Variante importante: aprendizaje por refuerzo. No se dispone de respuesta
exacta. S
olo de una senal de refuerzo que indica si la respuesta es correcta o
no. Puede ser con retraso.
No supervisado: No se conocen las salidas correctas. La red debe encontrar
regularidades entre los datos de entrada y tiende a agrupar los ejemplos con
entradas similares. Habitualmente debe realizar alg
un tipo de compresi
on de
datos.

   

Aprendizaje

18

Aprendizaje por correcci


on de error

El comportamiento de una RNA viene definido por una funci


on: F(x, w). x,
entrada; w, parametros libres.
Sea el conjunto de datos: {(xk , k )}
Error cometido por la red:
X

k k yk k

(2)

w = G(w, x, y)

(3)

E=

Aprender = Corregir el error:

   

Aprendizaje

19

Aprendizaje hebbiano

Dos reglas:
1. Si las dos neuronas conectadas por un enlace estan activas simult
aneamente, el
enlace es reforzado
2. Si las dos neuronas conectadas por un enlace se activan asncronamente, el
enlace se debilita
Caractersticas:
Dependencia temporal
Regla local
Mecanismo interactivo
w = xy

(4)
   

Aprendizaje

20

Aprendizaje competitivo

Las neuronas de salida compiten entre s por la activaci


on
Neuronas con respuestas distintas
Lmite a la activacion de cada neurona
Mecanismo de competicion: Winner-takes-all

   

Aprendizaje

21

Aprendizaje probabilstico

Ajuste NO determinstico
Funci
on de energa:

1 XX
E=
wij xk xj
2 j i

(5)

Probabilidad del cambio de estado:


1
p(xk xk ) =
1 + exp(E/T )

(6)

   

Aprendizaje

22

Aprendizaje como optimizaci


on

La inmensa mayora de los metodos de aprendizaje emplean un algoritmo de


optimizaci
on subyacente como metodo de ajuste.
Suele ser una funcion fuertemente no lineal = metodos aproximados:
Descenso en Gradiente
Gradiente Conjugado
Enfriamiento Simulado
Algoritmos evolutivos

   

El Perceptron

23

Perceptrones

El perceptron

Arquitectura
Algoritmo de entrenamiento de Rosenblatt
La regla delta
Limitaciones del perceptron
La funci
on XOR

El perceptron multicapa

Arquitectura
La neurona
Topologa
El algoritmo de retropropagaci
on de errores
Metodos avanzados
   

El Perceptron

24

El perceptron

Porpuesto por Rosenblatt en 1985


Red de propagaci
on hacia adelante con una sola capa:
x1

x1
x2
xn

w1
w2

fA

wn

x2

x3

con fA la funci
on umbral o signo.

   

El Perceptron

25

Algoritmo de Rosenblatt

1:
2:
3:
4:
5:
6:

Iniciar w aleatoriamente
while haya ejemplos mal clasificados do
Seleccionar aleatoriamente un ejemplo (x, d)
Calcular la salida y y comparar con d
w = (d y)
end while

TEOREMA:
El conjunto de datos {(x, d)} es finito y linealmente separable, el algoritmo
anterior encuentra una soluci
on en un tiempo finito (converge).

   

El Perceptron

26

La regla delta

Regla basada en correccion del error: considerar el entrenamiento como


minimizacion del error
1X k
E(w) =
(o y k )2
2

(7)

w w + w

(8)

w = E(w)
X
=
(ok y k )xk

(9)

(10)

   

El Perceptron

27

Limitaciones del Perceptron

Minsky y Papert 1969: El perceptron solo puede reseprentar problemas


linealmente separables.
Existen funciones sencillas que NO puede representar el perceptron: funci
on
O-exclusiva (XOR).
x1

w1
S U

x2

w2

   

El Perceptron

28

La funci
on O-Exclusiva (XOR)

Funci
on logica de dos variables = Muy simple

(0, 1)

(1, 1)
=1
=0

(0, 0)

(1, 0)

   

El Perceptron

29

Un perceptron para calcular la funci


on XOR

El problema se puede resolver usando una unidad intermedia:


1

x1
1
1
x2

1,5

0,5

Soluci
on a las limitaciones del perceptron: usar redes neuronales con m
as de
una capa y unidades que puedan procesar se
nales continuas.

   

El Perceptron Multicapa

Arquitectura 30

El Perceptron Multicapa: Arquitectura

La neurona basica
Topologa de la red: hacia adelante
El papel de las capas ocultas

   

El Perceptron Multicapa

Arquitectura 31

La neurona b
asica

Variaci
on continua de la neurona de McCulloch-Pitts: funci
on de activaci
on
continua
x1
w1
x2 w2
y
fA
xn

wn

Entrada efectiva a la neurona:


N=

wixi

(11)

   

El Perceptron Multicapa

Arquitectura 32

Funciones de activaci
on

Funciones sigmoides: continuas y derivables con forma de S.


Funci
on Logstica

Funci
on Tangente Hiperb
olica

0.5

0
-10

fA(N ) =

-1
0

10

1
1 + exp(N )

-10

10

f (N ) = tanh(N )

A veces, tambien funci


on lineal en las salidas

   

El Perceptron Multicapa

Arquitectura 33

Topologa hacia adelante

Propagaci
on de las se
nales en un solo sentido (feedforward).
Organizaci
on habitual por capas, con neuronales iguales. El n
umero de neuronas
por capa puede ser distinto en cada capa

No es necesaria una estructuraci


on perfecta en capas: Grafo Dirigido Acclico

   

El Perceptron Multicapa

Arquitectura 34

El papel de las capas ocultas

Proporcionar un cambio de variable para hacer linealmente separable el problema


Extraccion de caractersticas
Construir superficies de decision m
as complejas

   

El Perceptron Multicapa

Algoritmo BP 35

El algoritmo de retropropagaci
on de errores

Resena Hist
orica
Idea del algoritmo
El algoritmo BP
Consideraciones
Particularizaciones
Tasa de aprendizaje y momento
Aprendizaje en lnea y en batch
Condiciones de parada
Limitaciones del algoritmo

   

El Perceptron Multicapa

Algoritmo BP 36

BP: Rese
na Hist
orica

Autores
Rumelhart, Hinton y Williams en 1986

   

El Perceptron Multicapa

Algoritmo BP 36

BP: Rese
na Hist
orica

Autores
Rumelhart, Hinton y Williams en 1986
Parker en 1982

   

El Perceptron Multicapa

Algoritmo BP 36

BP: Rese
na Hist
orica

Autores
Rumelhart, Hinton y Williams en 1986
Parker en 1982
Werbos 1974

   

El Perceptron Multicapa

Algoritmo BP 36

BP: Rese
na Hist
orica

Autores
Rumelhart, Hinton y Williams en 1986
Parker en 1982
Werbos 1974
Bryson y Ho, 1969

   

El Perceptron Multicapa

Algoritmo BP 36

BP: Rese
na Hist
orica

Autores
Rumelhart, Hinton y Williams en 1986
Parker en 1982
Werbos 1974
Bryson y Ho, 1969
?

   

El Perceptron Multicapa

Algoritmo BP 37

El algoritmo de retropropagaci
on de errores

Entrenamiento = minimizaci
on de una funci
on de error
Error: Diferencia entre salidas obtenidas y esperadas.
Regla : usa el error para ajustar los pesos entre las dos u
ltimas capas, pesos de
salida. Pero no es valida para los dem
as pesos: no conocemos su aportaci
on al
error.

   

El Perceptron Multicapa

Algoritmo BP 38

Idea del algoritmo

Consideracion: Las salidas de una capa son las entradas de la siguiente; propagar
hacia atras el error
Esquema iterativo en dos etapas:
1. Propagaci
on hacia adelante: Evaluar el nivel de activaci
on de las neuronas y
calcular el error de la red
2. Propagar el error hacia atras, capa a capa, modificando los pesos
Retropropagaci
on de errores: BACKPROPAGATION (BP).

   

El Perceptron Multicapa

Algoritmo BP 39

Notaci
on

Generalizaci
on de la Regla
Supongamos un sistema con n entradas y m salidas: dise
namos un perceptron con
n entradas y m neuronas en la capa de salida
Conjunto de pares de entrenamiento (xk , tk ), xk Rn, tk Rm, k = 1, 2, . . . , K
min E(w) =
w

ktk F (xk , w)k

(12)

w(n + 1) = w(n) + w(n)


= w(n) E

(13)
(14)

   

El Perceptron Multicapa

Algoritmo BP 40

Notaci
on (II)

Componentes del vector gradiente: derivadas parciales


E =

i
capa p 1

E
wij,p

wij,p

(15)

ij,p

j
capa p

Ajuste de los pesos:


wij,p(n) = +j,pyi,p1

(16)

j,p: valor asociado a cada unidad

   

El Perceptron Multicapa

Algoritmo BP 41

BP: El algoritmo

1:
2:
3:
4:

5:
6:

repeat
Seleccionar el siguiente par de entrenamiento.
Introducir la entrada en la red y calcular la salida que le corresponde.
Calcular el error (en terminos de norma cuadratica) entre la salida obtenida
y la salida deseada (el vector objetivo del par de entrenamiento).
Ajustar los pesos de la red de modo que se minimice el error.
until que se cumpla el criterio de parada

   

El Perceptron Multicapa

Algoritmo BP 42

El algoritmo en acci
on

Propagaci
on hacia Adelante
x1

x2

x3
entradas

capa oculta

capa de salida

   

El Perceptron Multicapa

Algoritmo BP 43

El algoritmo en acci
on

Propagaci
on hacia Adelante
x1

x2

x3
entradas

capa oculta

capa de salida

   

El Perceptron Multicapa

Algoritmo BP 44

El algoritmo en acci
on

Propagaci
on hacia Adelante
x1

x2

x3
entradas

capa oculta

capa de salida

   

El Perceptron Multicapa

Algoritmo BP 45

El algoritmo en acci
on

Propagaci
on hacia Adelante
x1

x2

x3
entradas

capa oculta

capa de salida

   

El Perceptron Multicapa

Algoritmo BP 46

El algoritmo en acci
on

Propagaci
on hacia Adelante
x1

x2

x3
entradas

capa oculta

capa de salida

   

El Perceptron Multicapa

Algoritmo BP 47

El algoritmo en acci
on

Propagaci
on hacia Atras
x1

x2

x3
entradas

capa oculta

capa de salida

   

El Perceptron Multicapa

Algoritmo BP 48

El algoritmo en acci
on

Propagaci
on hacia Atras
x1

x2

x3
entradas

capa oculta

capa de salida

   

El Perceptron Multicapa

Algoritmo BP 49

El algoritmo en acci
on

Propagaci
on hacia Atras
x1

x2

x3
entradas

capa oculta

capa de salida

   

El Perceptron Multicapa

Algoritmo BP 50

El algoritmo en acci
on

Propagaci
on hacia Atras
x1

x2

x3
entradas

capa oculta

capa de salida

   

El Perceptron Multicapa

Algoritmo BP 51

El algoritmo en acci
on

Propagaci
on hacia Atras
x1

x2

x3
entradas

capa oculta

capa de salida

   

El Perceptron Multicapa

Algoritmo BP 52

El algoritmo en acci
on

Propagaci
on hacia Atras
x1

x2

x3
entradas

capa oculta

capa de salida

   

El Perceptron Multicapa

Algoritmo BP 53

BP: Ajuste de pesos de salida


tj

yi,Q1 wij,Q

yj,Q

tj yj,Q

error
j,Q

j,Q = fA0 (Nj,Q)(tj yj,Q)

(17)

   

El Perceptron Multicapa

Algoritmo BP 54

BP: Ajuste de pesos intermedios


Q
wj1,Q

1,Q

Q1 y
j2,Q1 wj2,Q
j

2,Q

yj1,Q1
wij,Q1

j,Q1

yjm,Q1
wjm,Q
m m,Q

j,Q1 =

fA0 (Nj,Q1)

i,Qwji,Q

(18)

   

El Perceptron Multicapa

Algoritmo BP 55

BP en notaci
on matricial

Con notacion vectorial, la operaci


on del BP es mas compacta.
q , vector de valores delta
yq , salidas obtenidas
wq , pesos
t
q = Dq+1wq+1
[yq (1 yq )]

(19)

q = 1, 2, . . . , Q, donde 1 representa un vector con todas las componentes igual a 1


y una multiplicacion componente a componente.

   

El Perceptron Multicapa

Algoritmo BP 56

Consideraciones

Ajuste de tendencias
Tratadas como pesos de los enlaces de unidades ficticias.

Aplicacion a topologas m
as generales
Considerar las unidades en orden topol
ogico.
   

El Perceptron Multicapa

Algoritmo BP 57

Particularizaciones: Funci
on logstica

Su derivada es facil de calcular:


fA0 (N ) = fA(N )(1 fA(N ))

(20)

s para las neuronas de salida:


j,Q = (tj yj,Q)yj,Q(1 yj,Q),

(21)

s las unidades ocultas:


j,p = yj,pq (1 yj,p1)

i,pwji,p.

(22)

   

El Perceptron Multicapa

Algoritmo BP 58

Particularizaci
on: tangente hiperb
olica

Derivada facil de calcular:


fA0 (x) = 1 fA(x)2

(23)

2
),
j,Q = (tj yj,Q)(1 yj,Q

(24)

s para las neuronas de salida:

s para las neuronas ocultas:


j,p = (1

2
yj,p1
)

i,pwji,p.

(25)

   

El Perceptron Multicapa

Algoritmo BP 59

Tasa de Aprendizaje

Aproximacion de la trayectoria en el espacio de pesos. Tama


no del paso regulado
por :
pequena: trayectoria suave
grande: rapidez, pero tambien posibles oscilaciones

   

El Perceptron Multicapa

Algoritmo BP 60

Momento

Uso del momento: para aumentar la velocidad y reducir la oscilaci


on
wij (n) = j (n)yj (n) + wij (n 1)

(26)

es la constante del momento, [0, 1)

   

El Perceptron Multicapa

Algoritmo BP 61

BP en batch

No hay ajuste para cada ejemplo. Se acumulan los valores y se hace el ajuste
cuando se han evaluado todos
Concepto de
epoca
1:
2:
3:
4:

5:
6:
7:
8:

repeat
for cada par del conjunto de entrenamiento do
Introducir la entrada en la red y calcular la salida que le corresponde.
Calcular el error (en terminos de norma cuadratica) entre la salida obtenida
y la salida deseada (el vector objetivo del par de entrenamiento).
Calcular el de cada unidad y acumularlo
end for
Ajustar los pesos de la red de modo que se minimice el error.
until que se cumpla el criterio de parada

   

El Perceptron Multicapa

Algoritmo BP 62

Condiciones de parada (I)

No se puede demostrar la convergencia del BP: Criterios heursticos.


Gradiente cero.
Si w es extremo = E(w) = 0
Parar cuando se alcance E(w) = 0
Estado estacionario. Parar cuando el cambio en la funci
on de error E sea
suficientemente pequeno.
Gasto computacional fijo.

   

El Perceptron Multicapa

Algoritmo BP 63

Condiciones de parada (II)

Parada temprana.
Dividir el conjunto de datos en
entrenamiento: usado para ajustar los pesos
validaci
on: usado para valorar la capacidad de generalizaci
on
Se mide el nivel de error en entrenamiento y en validaci
on.
Parar cuando empiece a crecer el error en validaci
on.

   

El Perceptron Multicapa

Algoritmo BP 64

Limitaciones del BP

Presencia de mnimos locales


Eleccion de la funci
on de error
Sobreajuste
Lentitud
Sin fundamento biol
ogico

   

El Perceptron Multicapa

Metodos Avanzados 65

Retropropagaci
on de errores

Ajuste de los pesos:


wij,p(n) = +j,pyi,p1

(27)

j,Q = fA0 (Nj,Q)(tj yj,Q)

(28)

para unidades de salida:

para unidades ocultas:


j,Q1 =

fA0 (Nj,Q1)

i,Qwji,Q

(29)

   

El Perceptron Multicapa

Metodos Avanzados 66

Descenso en gradiente. Mejoras

Adaptaci
on de la tasa de aprendizaje
nuevo

(
anterior
=
anterior

siE < 0
siE > 0.

> 1; 0, 5
Tasa de aprendizaje por cada peso
QuickProp Aproximar la funci
on de error por un polinomio cuadratico y emplear
dos evaluaciones consecutivas de esta aproximaci
on:
(t)

(t+1)
wi

gi
(t1)

gi

(t)

wi ,
(t)

gi

(t)

gi =

E
(t)

wi

   

El Perceptron Multicapa

Metodos Avanzados 67

M
etodos m
as r
apidos

Gradiente Conjugado
Metodo de Newton
Metodo de Levenberg-Marquardt

   

El Perceptron Multicapa

Metodos Avanzados 68

T
ecnicas Heursticas

Enfriamiento Simulado
Algoritmos Geneticos
Programaci
on Genetica
Controladores Difusos

   

Ingeniera de RNA

69

Ingeniera de RNA

1. Seleccionar el conjunto de datos


Entradas, salidas, tipo
2. Establecer el modelo
Arquitectura, parametros de aprendizaje
3. Entrenar la red con el conjunto de datos
4. Validar la red
5. Aplicarla

   

Ingeniera de RNA

70

Preprocesamiento y Extracci
on de Caractersticas

Necesidad de transformar los datos


Transformaciones de entrada y salida
Reduccion de dimensionalidad
Valores desconocidos o err
oneos
Extraccion de caractersticas

   

Ingeniera de RNA

71

Preprocesamiento

Normalizaci
on y codificacion de Entradas
Escalado lineal; transformaciones no lineales
Datos discretos:
ordinales
categoricos
Datos desconocidos:
Reemplazar por media
Reemplazar por valores de regresi
on
Principio de m
axima probabilidad
   

Ingeniera de RNA

72

Selecci
on de Caractersticas

Comparar subconjuntos de caractersticas


Depende del problema
B
usqueda:
Exhaustiva
Secuencial
Branch and Bound
Extracci
on de Caractersticas
Analisis de Componentes Principales (PCA)
Conocimiento a Priori
   

Ingeniera de RNA

73

Funciones de Error
El aprendizaje de las RNAs es un problema de optimizaci
on: minimizar el error
cometido sobre un conjunto de ejemplos.
Suma de los cuadrados:
P

1X
E=
||yi(x; w) ti||2
2 i=1
Se emplea por simplicidad analtica
Se deriva del principio de m
axima probabilidad, suponiendo que la distribuci
on
de los datos objetivo es normal.
Raz media al cuadrado:
P
||y t||2
n
E= P
||t t||2
   

Ingeniera de RNA

74

Funciones de Error (II)

Error de Minkowski
Con ejemplos muy atpicos, su aportaci
on al error puede ser demasiado determinante
E=

||y t||R

R < 2 atenua este efecto.

   

Ingeniera de RNA

75

Funciones de Error para Clasificaci


on

Depende la codificacion. Habitual: 1 de c.


Suma de cuadrados
Entropa cruzada:
E=

t ln y

   

Ingeniera de RNA

76

Algoritmos para Optimizaci


on de Par
ametros

Superficies de Error
Algoritmos Iterativos

Orden de convergencia:

w(t+1) = w(t) + w(t)

(t+1) ((t))L

Alto grado de simetra en el espacio de pesos

   

Ingeniera de RNA

77

Aprendizaje y Generalizaci
on

Objetivo del aprendizaje: construir un modelo estadstico del proceso que genera
los datos
Necesidad de controlar la complejidad del modelo
Balance entre tendencia y varianza
Regularizaci
on
Estabilizaci
on estructural
Entrenamiento con ruido

   

Ingeniera de RNA

78

Tendencia y varianza

El error de generalizaci
on se puede descomponer en dos partes:
tendencia: La diferencia en media de la funci
on que calcula la red y la que
pretende aproximar
varianza: Mide la sensibilidad respecto al conjunto de datos empleado
Existe una relacion de conflicto natural entre tendencia y varianza. Es necesario
encontrar un punto de equilibrio
Minimizando la tendencia y la varianza:
Usar mas datos
Conocimiento a priori
   

Ingeniera de RNA

79

Regularizaci
on

A
nadir un termino a la funci
on de error que regule la complejidad del modelo:
= E +
E
: Penalizacion para modelos complejos
: regula el grado de aplicaci
on de la penializaci
on
Tecnicas de regularizaci
on:
Reduccion de pesos:

1X 2
=
w
2 i i

Parada temprana
Suavizamiento guiado por curvatura
   

Ingeniera de RNA

80

Entrenamiento con ruido

A
nadir ruido aleatorio (distribuido seg
un una normal) a los datos de
entrenamiento. Esto evita el sobreajuste.

Estabilizaci
on estructural
Comparar redes de distinta complejidad
Poda
Crecimiento
Combinar las salidas de distintas redes
   

81

Complejidad del Aprendizaje

El problema general de aprendizaje de una RNA consiste en encontrar los


elementos desconocidos de una RNA dada (pesos, funciones de activaci
on,
conexiones).
Este problema es NP-completo

   

82

Aplicaciones

Codificacion/encriptaci
on de informaci
on
Lectura de textos
Reconocimiento de escritura
Problemas de decision
Prediccion de series temporales: precios, bolsa, cambio de divisas
Restauracion de imagenes
Diagn
ostico medico
   

83

Optimizacion combinatoria
Control adaptativo
Identificacion de sistemas desconocidos

   

84

Propiedades

Capacidad de aprendizaje y adaptaci


on
Capacidad de generalizaci
on
Capacidad de almancenamiento y memoria
Aproximacion Universal
Inmunidad frente al ruido
Modelos de representacion subsimb
olica del conocimiento
Naturaleza masivamente paralela: rapidez
Modelos de calculo
   

85

Inconvenientes

Caracter de Caja Negra


Diseno: seleccion de modelo y topologa
Seleccion del conjunto de ejemplos
Problemas de entrenamiento

   

Bibliografa

86

Bibliografa
C. Bishop. Neural Networks for Pattern Recognition. Springer-Verlag, 1995.
S. Haykin. Neural Networks. Prentice-Hall, 1999.
J.R. Jang, C.-T. Sun y E. Mizutani. Neuro-Fuzzy and Soft Computing. PrenticeHall, 1997.
D. Nauck, F. Klawonn and R. Kruse. Foundations of Neuro-Fuzzy. Chichester:
Wiley, 1997
B.D. Ripley. Pattern Recognition and Neural Networks. Cambridge University
Press, 1996.
R. D. Reed y R. J. M. II. Neural Smithing. Supervised Learning in Feedforward
Artificial Neural Networks. The MIT Press, 1999.
R. Rojas. Neural Networks. A Systematic Introduction. Springer-Verlag, 1995.
   

Bibliografa

87

Revistas

Neural Networks
IEEE Trans. on Neural Networks
Neurocomputing
Neural Comptutation

   

Bibliografa

88

Recursos en Internet

http://ftp.sas.com/pub/neural/FAQ.html
http://www.emsl.pnl.gov:2080/proj/neuron/neural/what.html
http://www.cs.stir.ac.uk/ lss/NNIntro/InvSlides.html
http://umtii.fme.vutbr.cz/MECH/nn.html
news://comp.ai.neural-nets
news://comp.ai.fuzzy
news://es.comp.ai.neural
   

Potrebbero piacerti anche