Sei sulla pagina 1di 124

Tesis Nilo

nilobarrantes

September 2019
ii
Abstract
iv
Sumário

Prefácio xvii

1 Introdução 1
1.1 Organização da Dissertação . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

2 Um breve Histórico 3
2.1 Os primórdios das Redes Neurais . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2 O Perceptron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.3 A Adaline . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

3 Modelagem de uma rede de neurônios 7


3.1 O neurônio Biológico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.2 O neurônio de McCulloc e Pitts . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3.3 Regra de aprendizado de Hebb . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.4 Modelo de Hopfield de uma rede neural . . . . . . . . . . . . . . . . . . . . . 9
3.4.1 Campo Externo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.4.2 Observáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

4 Teoria de Campo Médio no modelo de Hopfield 15


4.1 TCM - Limite de p finito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.2 TCM - Limite de α = p/N finito . . . . . . . . . . . . . . . . . . . . . . . . . 19
4.2.1 Soluções de simetria de Replicas . . . . . . . . . . . . . . . . . . . . . 24
4.2.2 Equações de campo médio . . . . . . . . . . . . . . . . . . . . . . . . 25
4.3 Soluções em T → 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.3.1 Campo acoplado com um único padrão . . . . . . . . . . . . . . . . . 26
vi SUMÁRIO

4.3.2 Campo externo Ortogonal aos padrões armazenados . . . . . . . . . . 29

5 Analise de Ruido Gaussiano 31


5.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.2 Verificação da estabilidade de padrões armazenados . . . . . . . . . . . . . . . 32
5.3 Capacidade de armazenamento para α = p/N finito . . . . . . . . . . . . . . . 33
5.3.1 Recuperação de padrões sem erros . . . . . . . . . . . . . . . . . . . . 34

6 Modelo Curado-Nobre 37
6.1 O modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
6.1.1 Teoria de Campo médio no modelo CN . . . . . . . . . . . . . . . . . 39
6.1.2 Equações de campo médio . . . . . . . . . . . . . . . . . . . . . . . . 40
6.1.3 Soluções em T → 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

7 Resultados e Discussões 43

8 RNED totalmente conectado 47


8.1 O Modelo de Hopfield . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
8.2 O Modelo RNED . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
8.2.1 A generalização do campo molecular . . . . . . . . . . . . . . . . . . 48
8.2.2 Estimativa de κ ótimo . . . . . . . . . . . . . . . . . . . . . . . . . . 49
8.2.3 Teoria de campo médio . . . . . . . . . . . . . . . . . . . . . . . . . 49
8.2.4 Soluções em T = 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

9 RNED diluído 53
9.1 Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
9.1.1 Análise sinal-ruído . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
9.2 Simulações Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
9.2.1 Padrões Descorrelacionados . . . . . . . . . . . . . . . . . . . . . . . 57
9.2.2 Padrões Espacialmente Correlacionados . . . . . . . . . . . . . . . . 59
9.2.3 Padrões Diluídos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

A Estudo analítico do modelo RNED 75


A.1 Teoria do Campo médio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
SUMÁRIO vii

A.2 Soluções da simetria de réplica . . . . . . . . . . . . . . . . . . . . . . . . . . 85


A.3 Equações de campo médio . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
A.3.1 Soluções em T = 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

A Criação da Matriz de diluição 99


viii SUMÁRIO
Lista de Figuras

1.1 Vista lateral do cérebro, mostrando as principais áreas do córtex cerebral[6]. . 1

2.1 Diagrama do (a) Perceptron, que usa uma função de ativação discreta como a
de McCulloch e Pits, e da (b) Adaline, a qual faz uso de uma função de ativação
linear[27]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

3.1 Neurônio Biológico [30]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

3.2 Superfície de quase energia do modelo de Hopfield: Os poços profundos são


atratores que correspondem aos padrões armazenados, já os platôs rasos são
memórias espúrias [14]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

4.3 Solução da equação 4.51 quando h0 → 0. (esquemático) . . . . . . . . . . . . 28

4.1 m vs α, para diversos valores de h no caso de reconhecimento de um padrão


armazenado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

4.2 m vs h, para diversos valores de α, no caso de reconhecimento de um padrão


armazenado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

4.4 m vs α, para diversos valores de h, no caso de reconhecimento de um padrão


ortogonal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

4.5 m vs h, para diversos valores de α, no caso de reconhecimento de um padrão


ortogonal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

5.1 Probabilidade de hi ξiν < 0 como uma função x = ∆2 . . . . . . . . . . . . . . . 34


x LISTA DE FIGURAS

9.1 Magnetizações mθ (κ), m⊥ (κ) e ∆m (κ) para sistemas RNED com padrões
armazenados descorrelacionados e γ = 0.74. A figura mostra como o parâmetro
de carga influencia no aparecimento de κC . (a) α = 0.5. (b) α = 0.7. (c)
α = 0.9. (d) α = 1.0. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

9.2 Magnetizações mθ , m⊥ e ∆m como uma função de κ, obtidas de simulações


Monte Carlo, para sistemas RNED com padrões descorrelacionados e γ = 0.8.
Observa-se que o tamanho da cúspide em κC é influenciada pelo parâmetro de
carga. (a) α = 0.5. (b) α = 0.7. (c) α = 0.9. (d) α = 1.0. . . . . . . . . . . . . 62

9.3 Magnetizações mθ (κ), m⊥ (κ) e ∆m (κ) para sistemas RNED com padrões
armazenados descorrelacionados e γ = 0.9. A figura mostra que κC cresce
conforme o parâmetro de carga aumenta. (a) α = 0.5. (b) α = 0.7. (c) α = 0.9.
(d) α = 1.0. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

9.4 Magnetizações mθ (κ), m⊥ (κ) e ∆m (κ) para sistemas RNED com padrões
armazenados descorrelacionados e γ = 0.9. A figura mostra que κC é aproxi-

madamente igual a α. (a) α = 0.5. (b) α = 0.7. (c) α = 0.9. (d) α = 1.0. . . 64

9.5 Evolução temporal das magnetizações mθ e mν de um sistema RNED com pa-


drões armazenados descorrelacionados, com γ = 0.9, α = 0.7, para quatro
regiões presentes na fig. 9.3 (b): (a) κ = 0.2; (b) κ = 0.85; (c) κ = 1.5; (d)
κ = 2.5. Para κ = 0, nos primeiros 50 mil passos MC, tanto mθ com mν são
zero. Nos próximos 50 mil passos, considerando η = ξ θ com γ = 0.9, observa-
se 0 ≤ mθ ≤ 2γ − 1 e mν = 0. Nos últimos 50 mil passos MC, para η = ξ ν
com γ = 1.0, temos 0 ≤ mν ≤ 1 e mθ = 0. . . . . . . . . . . . . . . . . . . . 65

9.6 Comparação das magnetizações mθ (κ), m⊥ (κ) em ∆m (κ) obtidas mediante


simulação Monte Carlo com as magnetizações mTθ (κ), mT⊥ (κ) e ∆mT (κ) pre-
vistas pela teoria de réplica para quatro casos diferentes: (a) α = 1.0 e γ = 0.74;
(b) α = 0.9 e γ = 0.8; (c) α = 0.7 e γ = 0.9; (d) α = 0.5 e γ = 1.0. . . . . . . 66

9.7 Magnetizações mθ (κ), m⊥ (κ) e ∆m (κ) para sistemas RNED com padrões
armazenados descorrelacionado, γ = 1.0 e α = 40.0. Observamos uma grande
semelhança entre as curvas mθ e m⊥ , o qual indica que αc ≈ 40. . . . . . . . . 67
LISTA DE FIGURAS xi

9.8 Magnetizações mθ , m⊥ e ∆m como uma função de κ, para sistemas RNED


com um padrão 40% correlacionado com ξ θ . Observamos que κ cresce com o
parâmetro de carga α. (a) α = 0.5. (b) α = 0.7. (c) α = 0.9. (d) α = 1.0. . . . 68
9.9 Magnetizações mθ (κ), m⊥ (κ) e ∆m (κ) para sistemas RNED com um padrão
espacialmente correlacionado em 80% com ξ θ . A figura mostra que κC cresce
conforme o parâmetro de carga aumenta e que mθ → 1.0 mais rapidamente que
na fig. 9.8. (a) α = 0.5. (b) α = 0.7. (c) α = 0.9. (d) α = 1.0. . . . . . . . . . 69
9.10 Magnetizações mθ (κ), m⊥ (κ) e ∆m (κ) para sistemas RNED com quatro pa-
drões correlacionados em 60%, 70%, 80% e 90% com ξ θ . Observa-se que é
suficiente κC ≈ 0.2 para recuperar o padrão ξ θ . (a) α = 0.5. (b) α = 0.7. (c)
α = 0.9. (d) α = 1.0. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
9.11 Magnetizações mθ , m⊥ e ∆m como uma função de κ, para sistemas RNED
diluídos com α = 0.5. Observa-se que κC aumenta conforme o parâmetro de
diluição d cresce. (a) d = 0.3. (b) d = 0.6. (c) d = 0.9. (d) d = 1.0. . . . . . . 71
9.12 Magnetizações mθ (κ), m⊥ (κ) e ∆m (κ) para sistemas RNED diluídos com
α = 0.7. A figura mostra uma dependência de κC com o parâmetro de diluição
d. (a) d = 0.3. (b) d = 0.6. (c) d = 0.9. (d) d = 1.0. . . . . . . . . . . . . . . . 72
9.13 Magnetizações mθ , m⊥ e ∆m como uma função de κ, para sistemas RNED
p
diluídos com α = 1.0. Observa-se que os valores de κC são próximos de α/d,
como previsto em 9.1.1. (a) d = 0.3. (b) d = 0.6. (c) d = 0.9. (d) d = 1.0. . . . 73
xii LISTA DE FIGURAS
Lista de Tabelas
xiv LISTA DE TABELAS
Listings

A.1 Subroutina MatrizDilucao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101


A.2 Subroutina ReposicaoMatriz . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
A.3 Subroutina Ransam . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
xvi LISTINGS
Prefácio

introducao
xviii Prefácio
Capítulo 1

Introdução

cérebro humano é uma máquina altamente poderosa e complexa capaz de processar


O grandes quantidades de informação em tempo mínimo. É mediante os neurônios, uni-
dades fundamentais do cérebro, que a informação é transmitida e processada. As tarefas reali-
zadas pelo cérebro intrigam os pesquisadores, como por exemplo, a capacidade do cérebro de
reconhecer um rosto familiar dentre uma multidão em apenas milésimos de segundo. Muitos
enigmas sobre o funcionamento do cérebro ainda não foram desvendados e se perpetuam ate os
dias de hoje. O que é conhecido sobre o funcionamento do cérebro é que o mesmo desenvolve
suas regras através da experiência adquirida em situações vividas anteriormente.

Pesquisadores das mais diversas áreas, inspirados neste modelo, tentaram simular o funci-
onamento do cérebro, principalmente o processo de aprendizagem por experiência, a fim de
criar sistemas inteligentes capazes de realizar tarefas como classificação, reconhecimento de
padrões, processamento de imagens, entre outras atividades. Como resultado destas pesqui-
sas surgiu o modelo do Neurônio Artificial e posteriormente um sistema com vários neurônios
interconectados, a chamada Rede Neural Artificial (RNA).

Lobes-of-the-Cerebrum.jpg
h

Figura 1.1: Vista lateral do cérebro, mostrando as principais áreas do córtex cerebral[6].
2 Introdução

1.1 Organização da Dissertação


A estrutura desta dissertação divide-se em:
O Capítulos 2 contém uma breve histórico sobre a origem e desenvolvimento das redes
neurais artificiai. Dá-se um pequeno enfase nas redes Perceptron e a Adaline, devido a sua
importância histórica.
O Capítulo 3 apresenta os conceitos necessários que levaram ao desenvolvimento do mo-
delos de Hopfield. Estuda-se a capacidade de armazenamento do modelo mediante a teoria de
campo médio nos casos de p e p/N finitos.
No Capítulo 4, discutiremos um método alternativo, ruido Gaussiano, para o calculo da
capacidade máxima de armazenamento de uma rede de Hopfield.
O Capítulo 5 abordará o estudo de um novo modelo de rede neural e sua capacidade de
armazenamento. Realizaremos a comparação entre os resultados esperados e os obtidos pela
teoria e serão discutidas as possíveis causas da diferença entre ambas.
Finalmente, no Capítulo 7, apresentamos as principais conclusões e possíveis extensões do
presente trabalho.
Capítulo 2

Um breve Histórico

S redes neurais artificiais, existes aproximadamente desde a década de 1950. Mas durante
A várias décadas, mesmo com a evolução da arquitetura dos modelos, ainda faltavam “in-
gredientes” que fizessem os modelos realmente funcionar. Os dois “ingredientes” faltantes
surgiram quase ao mesmo tempo. O Big Data; O volume de dados gerados em variedade e
velocidade cada vez maiores, que permite criar modelos e atingir altos níveis de precisão, e a
programação Paralela em GPU’s; As unidades de processamento gráfico, que permitem realizar
operações matemáticas de forma paralela, principalmente operações com matrizes e vetores,
elementos presentes em modelos de redes neurais artificias. A união destes ingredientes permi-
tiu a evolução na qual nos encontramos atualmente:

Big Data + Processamento Paralelo + Modelos de Aprendizagem de Maquina = inteli-


gencia Artificial.

Para compreender onde estamos hoje, analisaremos como chegamos ate aqui. Vejamos
então uma breve historia das redes neurais artificiais.

2.1 Os primórdios das Redes Neurais

Um dos primeiros registros do surgimento das RNA’s se deu com a publicação de um artigo
de McCulloch e Pitts em 1943[23], no qual definiu-se o neurônio formal, provando que são
unidades capazes de executar operações logicas. Já em 1949, Donad Hebb criou o primeiro
método de treinamento das RNA’s. Ele apresentou uma hipótese sobre a maneira com que a
4 Um breve Histórico

forcas sinápticas, no cérebro, se alteram em resposta à experiencia.


Em 1956, o Projeto de Pesquisa de Verão de Dartmouth sobre Inteligência Artificial propor-
cionou um impulso tanto à Inteligência Artificial como às Redes Neurais. Um dos resultados
deste processo foi estimular a pesquisa em IA na parte de processamento neural.
Anos depois, entre 1957 e 1958, Rosenblat desenvolveu o primeiro neurocomputador e, no
período de 1958 a 1962, criou uma grande classe de RNA’s denominada Perceptrons. Por volta
do mesmo periodo, Widrow e Hoff (1962) desenvolveram um novo tipo de RNA denominado
ADALINE (Adaptative Linear Element).
Os resultados obtidos nessas pesquisas motivaram vários pesquisadores a estudarem as
RNAs, até que, em 1969, Minsky e Papert, demonstraram matematicamente as limitações das
redes constituídas de uma única camada, como o Perceptron e o Adaline. No livro Perceptrons
- An Introduction to Computational Geometry, eles usam um simples problema de lógica deno-
minado XOR (OU exclusivo) para mostrarem que essas redes eram incapazes de resolvê-lo[12].
Além disso, esses autores não acreditavam que uma arquitetura adequada, juntamente com um
algoritmo de ajuste de pesos, pudessem ser desenvolvidos de forma a superar esta limitação. A
publicação deste trabalho causou um grande impacto entre os pesquisadores da neurocompu-
tação, fazendo com que o interesse pela área ficasse bastante reduzido. Isso, de certa forma,
ocasionou a ausência de novos resultados para a área por um longo período[10]. Nesse período
de relativa turbulência das pesquisas envolvendo RNAs, foi implementada a rede ART (Adap-
tive Ressonance Theory). Num trabalho de Grossberg, em 1980, foi realizada a formulação de
mapas auto-organizáveis de Kohonen.
Em 1982, J. Hopfield, do Caltech, juntamente com D. Tank, pesquisador da AT&T, come-
çaram a desenvolver diversos modelos de redes neurais baseadas em pesos fixos e ativações
adaptativas. Estas redes podem ser usadas como memórias auto associativas e para resolver
problemas de otimização restrita como o caso do “Caixeiro Viajante”. A rede de Hopfield pode
ser considerada como um sistema dinâmico com um número finito de estados de equilíbrio, de
forma que o sistema invariavelmente irá evoluir para um destes estados ou para uma sequência
periódica de estados a partir de uma condição inicial. É também natural que a localização destes
estados de equilíbrio possa ser controlada pela intensidade das conexões (pesos) da rede neural.
A conclusão interessante adotada por Hopfield foi que tais estados de equilíbrio podem ser
utilizados como dispositivos de memória. De forma distinta daquela utilizada pelos computado-
2.2 O Perceptron 5

res convencionais, em que o acesso à informação armazenada se dá por meio de um endereço,


o acesso ao conteúdo da memória de uma rede de Hopfield se dá permitindo que a rede evolua
com o tempo para um de seus estados de equilíbrio. Tais modelos de memória são denominados
memórias endereçáveis por conteúdo.
A partir do trabalho de Hopfield, a neurocomputação voltou a receber a atenção dos pesqui-
sadores, principalmente, matemáticos, físicos e engenheiros. Não obstante, a teoria das RNAs
conseguiu realmente se reestabelecer a partir da publicação do livro Parallel Distributed Proces-
sing de Rumelhart, Hinton e Williams, publicado em 1986[28]. Nele, mostra-se um algoritmo,
denominado retro propagação (backpropagation), capaz de treinar redes com múltiplas cama-
das e que, por sua vez, eram capazes de resolver as limitações apresentadas por Minsk e Papert.
Coincidentemente esse acontecimento deu-se no momento em que estavam sendo desenvolvi-
dos computadores com maior capacidade de processamento[10], os quais permitiram melhores
simulações das RNA’s. Apos a publicação, pesquisadores das mais diferentes áreas passaram a
visualizar interessantes aplicações para redes neurais artificiais.
Atualmente, as redes neurais são usadas em várias aplicações. A ideia fundamental por trás
da natureza das redes neurais é que, se ela funcionar na natureza, deve ser capaz de funcionar em
computadores. O futuro das redes neurais, no entanto, reside no desenvolvimento de hardware.
As redes neurais rápidas e eficientes dependem do hardware especificado para seu eventual uso.
Devido a sua importância histórica, faremos uma breve descrição de redes neurais tais como
o Perceptron e a Adaline.

2.2 O Perceptron

Nas décadas de 1950 e 1960, vários pesquisadores estavam propondo modelos de redes neurais
contendo modificações no modelo original de McCulloch e Pitts e regras de modificação dos
pesos sinápticos diferentes da lei de Hebb para tratar de problemas de aprendizado.
Uma das regras de aprendizado proposta naquela época que causou maior impacto foi a
Regra de Aprendizado do Perceptron. Esta regra fazia parte de um modelo de rede neuronal de-
senvolvido pelo cientista da computação Frank Rosenblatt entre 1958 e 1962, que foi chamado
de Perceptron (vide fig. 2.1(a)).
O Perceptron de Rosenblatt foi desenvolvido inspirado no sistema visual dos mamíferos,
6 Um breve Histórico

Figura 2.1: Diagrama do (a) Perceptron, que usa uma função de ativação discreta como a de
McCulloch e Pits, e da (b) Adaline, a qual faz uso de uma função de ativação linear[27].

com objetivo de lidar com o problema de reconhecimento de padrões. Este é um tipo de ta-
refa que os seres humanos fazem sem nenhum esforço aparente e de forma quase instantânea.
Porém, é um dos problemas mais difíceis de serem resolvidos por uma máquina.

2.3 A Adaline
Os engenheiros da Universidade de Stanford, Berand Widrow e Marcian Hoff, poucos meses
apos a publicação do teorema da convergência do Perceptron por Rosenblatt, publicaram um
trabalho descrevendo uma rede neural muito parecida com o Perceptron, porem com as uni-
dades de saída tendo funções de transferência lineares e com uma nova regra de aprendizado
supervisionado, que ficou conhecida como Regra Delta. A rede neural apresentada por eles foi
batizada de Adaline (ADAptive LINear Element).
Assim como o Perceptron, a Adaline é uma rede neural tendo uma camada de entrada com
N unidades e uma camada de saída com apenas uma unidade. Não há camadas escondidas.
A camada de entrada da Adaline é similar à camada A do Perceptron. As atividades dos seus
neurônios fornecem uma representação do padrão de entrada sendo apresentado à rede neural
e os seus valores são números reais quaisquer. Porém, a unidade de saída é diferente. Na
Adaline, a atividade do neurônio de saída não é uma variável binária como no Perceptron, mas
uma função linear do seu nível de ativação (veja a figura 2.1(b)).
As aplicações tidas em mente por Widrow e Hoff para a Adaline eram o reconhecimento de
padrões, processamento de sinais, regressão linear e controle adaptativo. Atualmente, a Adaline
ainda é utilizada em algumas dessas aplicações.
Capítulo 3

Modelagem de uma rede de neurônios

UPONHA - SE que a imagem de uma igreja, uma casa com paredes de cor branco, uma
S cruz no teto, janelas de cores e portas marrom muito grandes esta armazenada na sua
memoria. Uma memoria endereçável por conteúdo teria a capacidade de recuperar esta imagem
da memoria sob a base de suficiente informação parcial. Por exemplo, a informação de entrada
“casa com uma cruz no teto e portas grandes” poderia ser suficiente para recuperar a a imagem
de uma igreja. Uma memoria ideal seria capaz de tratar com erros e recuperar esta imagem
inclusive a partir de uma entrada “escombros de uma casa com uma cruz na porta”.

3.1 O neurônio Biológico

Cada elemento de uma rede neuronal biológica, o neurônio, possui um corpo central, um axô-
nio e diversos dendritos que se comunicam com outros neurônios mediante as sinapses. Na
ausência de estímulos, o interior do neurônio esta a um potencial de −70 mV em relação ao
exterior, estado passivo. Quando se estimula o neurônio observam-se mudanças na diferencia
de potencial (DDP) através de sua membrana. No caso de hiperpolarização, DDP mais nega-
tiva, o neurônio permanece passivo e no caso de despolarização, DDP menos negativa, somente
no caso dela atingir um certo potencial limiar (≈ −60 mV ), gera-se um pulso elétrico como
consequência de uma rápida variação de potencial, conhecida como potencial de ação. O po-
tencial de ação propaga-se pelo axônio e ao chegar aos terminais sinápticos estimula a liberação
de substancias químicas, chamadas neurotransmissores, capazes de induzir uma despolarização
ou hiperpolarização na membrana do neurônio receptor. O potencial produzido pela alteração
8 Modelagem de uma rede de neurônios

neuronio-biologico.png

Figura 3.1: Neurônio Biológico [30].

da permeabilidade iônica da membrana neuronal é chamado de potencial pós-sináptico (PPS) e


sera inibitório caso o neurotransmissor tenha produzido uma hiperpolarização ou excitatório no
caso de despolarização.
O resultado da adição dos potencias pós-sinápticos, que chegam simultaneamente ao soma
do neurônio receptor, deve exceder o limiar de −60 mV para tornar o neurônio ativo. Caso
contrario, o neurônio permanecera passivo e a diferencia de potencial através de sua membrana
decairá ao seu valor de equilibro (−70 mV ) quase que exponencialmente.

3.2 O neurônio de McCulloc e Pitts

Ignorando completamente a dinâmica interna do neurônio biológico, McCulloch e Pitts em


1943[23], introduziram a noção do neurônio formal como um elemento de de dois estados;
ativo (σ = 1) ou passivo (σ = 0), dependendo de se o neurônio disparou ou não um sinal ele-
troquímico. Para isso calcula-se somas ponderadas das entradas com os pesos preestabelecidos,
podendo ser negativos no caso de uma sinapse inibitória, ou positivos no caso excitatório. Se
essa soma for maior que um dado limiar, então o neurônio emite um pulso. Com esse meca-
nismo simples é possível implementar uma rede de neurônios que realize o cálculo de qualquer
função booliana. Uma outra representação, mais conveniente em virtude da analogia com siste-
mas magnéticos, proposta por Little[22], estabelece que a variável S assume os valores S = +1,
se for ativo ou excitatório, e S = −1, se for passivo ou inibitório, para representar os dois esta-
dos. Estas duas representa relacionam-se mediante a expressão

S = 2σ − 1. (3.1)

A essência filosófica da proposta de McCulloch e Pitts, é colocar a inteligencia em equivalência


ao calculo de predicados, esses por sua vez podem ser implementados via funções boolianas.
Visto de uma forma bastante simplificada o cérebro é composto por uma rede de neurônios que
tem a capacidade básica de resolver essas funções.
3.3 Regra de aprendizado de Hebb 9

3.3 Regra de aprendizado de Hebb

É fato de que uma função muito importante do sistema nervoso é o aprendizado e a memoria,
pois muitas outras funções tais como a capacidade de adaptação a variações ambientais e pro-
cessamento visual, que devido a sua complexidade são adquiridas por aprendizado na primeira
infância, dependem dele.
Mesmo com diversos candidatos, a ferramenta mais robusta e suficientemente flexível para
lhe confiar o papel da memoria, é de longe, a força de conexão sináptica Jij . Com base nesta
ideia, Hebb no ano 1983 [16], descreveu um mecanismo básico da plasticidade sináptica cha-
mada também de “regra de Hebb”, que afirma;

• “Quando um axônio do neurônio A é próximo o suficiente de excitar um neurônio B e


repetidamente ou persistentemente toma parte em dispará-la, algum processo de cresci-
mento ou mudança metabólica acontece em uma ou ambas as células tal que a eficiência
de A, em contribuir para o disparo de B, é aumentada”.

A tradução para a linguagem matemática da hipótese de Hebb, e suas consequências, pro-


porciona a expressão chamada “regra de Hebb”, dada por
p
1 X µ µ
Jij = ξ ξ (1 − δij ) . (3.2)
N µ=1 i j

Onde os p conjuntos de {ξiµ } são algumas configurações da rede que foram fixadas pelo pro-
cesso de aprendizagem. Devido ao alcance infinito das forcas de interação, o fator N −1 é
necessário para a obtenção do limite termodinâmico. A escolha de (3.2) permite que os {ξiµ }
sejam as configurações estáveis da rede, dando assim à rede uma capacidade de aprendizagem
e memoria.

3.4 Modelo de Hopfield de uma rede neural

As redes Neuronais artificiais (RNAs) fundamentam-se nos estudos sobre a estrutura do cérebro
humano para tentar emular sua forma inteligente de processar informação. Alguns estudos da
neurofisiologia consideram que a riqueza computacional do cérebro humano esta associada ao
grande numero de neurônios, interconectados por uma rede complexa de sinapses[8].
10 Modelagem de uma rede de neurônios

Fazendo uso dos neurônios lógicos de McCullough e Pittts e a regra de Hebbs, Hopfield
criou o seu modelo de rede neural, o qual baseia-se nas seguintes regras:

1. O potencial pós-sináptico ou de membrana,Vi é dado pela soma de todos os potenciais


pós-sinápticos que chegam ao neurônio i, quase simultaneamente. Ou seja
N
X
Vi = Jij σj , (3.3)
j6=i

onde σj = 0, 1 de acordo a se o neurônio j disparou ou não um sinal eletroquímico. Jij


é a eficacia sináptica, que determina a contribuição de um sinal disparado pelo j-ésimo
neurônio, para o potencial pós-sináptico do i-ésimo neurônio. O Jij > 0 se a sinapse é
excitatória e Jij < 0 para sinapse inibitória.

2. Fazendo a suposição de que a soma dos potenciais de ação é idêntico a soma dos po-
tenciais pós-sinápticos Vi . O neurônio i, emitira um potencial de ação ao longo de seu
axônio somente depois da comparação do potencial de membrana acumulado com o seu
potencial limiar Ui . Assim, o estado do neurônio i, sera

1 Vi > Ui

σi = (3.4)
0 Vi < Ui

onde Ui é o potencial limiar do neurônio i. Se faz Si = 2σi − 1, ou seja Si = +1 quando


σi = 1 e Si = −1 quando σi = 0, para termos uma analogia completa com um sistema
de spins de Ising.

3. O estado interno Si , do neurônio, deve obedecer a seguinte equação

Si · hi = Si · (Vi − Ui ) > 0. (3.5)

com objetivo de cumprir a condição de alineamento com seu campo molecular hi =


Vi − Ui . O campo molecular, pode-se escrever da seguinte forma
N
X
hi = Vi − Ui = Jij (Sj + 1) − Ui
j6=i
N N
!
X X
hi = Jij Sj + Jij − Ui . (3.6)
j6=i j6=i
3.4 Modelo de Hopfield de uma rede neural 11

A expressão anterior, pode interpretar-se como a soma de um “campo efetivo” agindo


no spin i, originado por suas interações com outros spins, com um “campo magnético
externo”, hext = N
P
i j6=i Jij − Ui , que não depende dos outros spinsSj do sistema. Assim,

o campo molecular que age no neurônio i, toma a forma


X
hi = Jij Sj + hext
i , (3.7)
j6=i

com hext Jij∗ − Ui .


P
i = j

4. Como o modelo, que estamos idealizando, deve descrever a dinâmica do sistema, se as-
sume que o estado de uma rede neural deve evoluir de acordo com as interações entre seus
neurônios, os quais estão interconectados pelas junções sinápticas de força Jij . Com ob-
jetivo de fazer uma analogia da rede neural com uma rede de spins, Hopfield, obedecem
a “regra de Hebb”, dada por
p
1 X µ µ
Jij = ξ ξ (1 − δij ) . (3.8)
N µ=1 i j

Da equação anterior, conclui-se que, as sinapses são simétricas (Jij = Jji ) e os neurônios
não estão conectados a si mesmos(Jii = 0).

5. Devido a que o modelo de Hopfield não envolve nenhum mecanismo dinâmico especi-
fico é necessário especificar como vá-se incrementar a variável temporal. Assume-se,
portanto, que a atualização do estado interno dos neurônios é feita de forma “assín-
crona”(ou seja, um neurônio por vez muda seu estado interno, uma vez atualizado, o
valor de saída deste neurônio é imediatamente utilizado para atualizar o estado interno
dos demais neurônios durante uma iteração do processo cíclico de busca e recuperação
de padrões - uma iteração é completada quando todos os neurônios da rede tem seus
estados internos atualizados).

Segundo Hopfield, a rede neuronal sempre evolui minimizando sua “energia computacional”
como uma consequência de que os neurônios devem obedecer a condição de alineamento com
seu campo molecular. É possível associar uma quantidade extensiva, um Hamiltoniano, ao
modelo neural de Hopfield. Isto é
X 1X X
H (I) = − hi Si = − Jij Si Sj − hext
i Si . (3.9)
i
2 ij i
12 Modelagem de uma rede de neurônios

Figura 3.2: Superfície de quase energia do modelo de Hopfield: Os poços profundos são atra-
tores que correspondem aos padrões armazenados, já os platôs rasos são memórias espúrias
[14].

As interações Jij podem ser a priori de qualquer sinal e, portanto, o Hamiltoniano (3.9), é
equivalente ao Hamiltoniano de um vidro de spin. Em modelos de vidro de spin, muitas ve-
zes assume-se que a distribuição de interação é simétrica e sua média é zero. O equivalente
biológico é um número equivalente de sinapses excitatórias e inibitórias.
A rede de Hopfield pode ser vista como uma memoria associativa não linear, ou uma memo-
ria endereçável por conteúdo, cuja principal função é restaurar um padrão binário armazenado
(item de memoria), em resposta à apresentação de uma versão incompleta (papel restaurador)
ou ruidosa (papel de corretor de erro) deste padrão. Ou seja, a recuperação de um padrão arma-
zenado na memoria se da a partir de um subconjunto das informações contidas no padrão.
Quando a rede neural de Hopfield armazena K memorias fundamentais através do ajuste de
seus pesos pela regra de Hebb generalizada, os estados estáveis presentes na superfície de ener-
gia não vão se restringir aos estados associados às memorias fundamentais armazenadas. Todos
os estados estáveis não associados às memorias fundamentais armazenadas são denominados
“atratores espúrios”.

3.4.1 Campo Externo


PN
Acredita-se que no caso do potencial médio de membrana V i = j6=i Jij ser aproximadamente
igual ao limiar Ui , a resposta de um neurônio sera mais sensível a mudanças em suas entradas.
É possível mostrar que a operação na vizinhança do limiar neuronal aumenta a capacidade de
armazenamento da rede neural[2]. Pode-se, portanto, simplificar o modelo assumindo que

hext
i = 0. (3.10)

Essa suposição implica que os limiares reais dos neurônios sejam balanceados pela atividade
média na rede. A eliminação dos limiares na descrição do modelo, permite focalizar a atenção
no papel das eficacias sinápticas, Jij , no controle do desempenho coletivo das redes neurais
artificiais.
3.4 Modelo de Hopfield de uma rede neural 13

3.4.2 Observáveis

No equilíbrio termodinâmico o sistema transita entre configurações que satisfazem a distribui-


ção de Gibbs, isto é, a probabilidade de equilíbrio P (I) de encontrar o sistema na configuração
I é dada por
1
P (I) = exp (−βH (I)) . (3.11)
Z
Neste caso, a media temporal de um determinado observável é igual à média de ensemble.
O valor médio do observável O, define-se por

1 X
hOi = O · exp (−βH {Si }) , (3.12)
Z
{si }

onde Z é a função de partição, definida por


X
Z= exp (−βH {Si }) . (3.13)
{si }

Como o interesse é desenvolver métodos que nos permitam encontrar as equações de estado que
descrevem nossa rede neural, a qual esta em contato com um banho térmico de temperatura 1/β
(ensemble canônico). É conhecido que a conexão entre o ensemble canônico e a termodinâmica
se faz através da energia livre de Helmholtz

1
f (β) = − ln Z (3.14)
βN

que deve ser calculada no limite termodinâmico. O conhecimento da energia livre permite o
estabelecimento de todas as propriedades termodinâmicas do sistema sob consideração.
14 Modelagem de uma rede de neurônios
Capítulo 4

Teoria de Campo Médio no modelo de


Hopfield

EVIDO a complexidade matemática no estudo analítico de grandes modelos estocásticos,


D é comum mesmo para sistemas em equilíbrio se utilizar métodos aproximativos para a
determinação de algumas propriedades criticas de modelos desse tipo.

A aproximação mais simples utilizada é a aproximação de campo médio. A ideia consiste


em isolar um determinado spin (ou neurônio) do sistema e assumir que todos os outros spins
atuam como um campo magnético médio que interage com o spin fixado, transformando assim
um problema mecânico estatístico de muitos corpos em um problema de um só corpo. A ideia
da teoria de campo médio (TCM), apareceu por primeira vez na física, no trabalho de Pierre
Curie[1] e Pierre Weiss para descrever transições de fase.

Obviamente, este tipo de procedimentos não são exatos mas sim muito uteis no calculo dos
exponentes criticos, diagramas de fase e outras propriedades termodinâmicas. Os exponentes
criticos, determinados por esta teoria, são mais precisos a medida que aumenta a dimensionali-
dade do sistema.

Resumindo, o objetivo da TCM é substituir todas as interações por um corpo com uma
interação média ou efetiva, às vezes chamada “campo molecular”.

A seguir, apresenta-se as características gerais da teoria de campo médio do modelo de


Hopfield no limite em que o numero de padrões armazenados p é finito e o caso em que p
aumenta com o tamanho N da rede.
16 Teoria de Campo Médio no modelo de Hopfield

4.1 TCM - Limite de p finito


Em 1985, Amit, Gutfreund e Sompolinsky [2] estudaram o modelo proposto por Hopfield,
com objetivo de analisar o comportamento colectivo de grandes redes neuronais. O analise
desenvolvido nesta seção, limita-se ao caso em que o numero de padrões armazenados, p, é
pequeno em comparação ao numero de neurônios, N , do sistema.
Considerando-se que as “memorias” armazenadas ξiµ , são variáveis aleatórias independentes
quenched, e que obedecem a seguinte distribuição de probabilidade
Y
P ({ξiµ }) = P (ξiµ )
i, µ
1
P (ξiµ ) = [δ (ξiµ − 1) + δ (ξiµ + 1)] , (4.1)
2
ou seja, os ξiµ assumem valores +1 e −1 com igual probabilidade.
Para determinar qualquer propriedade física do sistema deve-se tomar uma media dessa
propriedade sobre a distribuição de probabilidades 4.1. Como estamos interessados no calculo
da densidade de energia livre do sistema, a media desta propriedade sera dada por
1
f (β) = − lim hhln Ziiξ , (4.2)
N →∞ βN

onde hh. . .iiξ representa a media sobre a distribuição quenched {ξiµ }.


Para o analise termodinâmico da rede de spins, precisamos definir o hamiltoniano do sis-
tema. Substituindo hext = pµ=1 hµ ξiµ no hamiltoniano da equação (3.9) e considerando que
P
i

Jij = Jji , obtêm-se


N p N
1X X X
H (I) = − Jij Si Sj − hµ
ξiµ Si , (4.3)
2 i, j6=i µ=1 i=1
µ
onde, por conveniência, os hµ são campos externos uniformes, conjugados a
P
i ξi Si . Substi-
tuindo a equação anterior, que representa o hamiltoniano do sistema, na definição da função de
partição (vide (3.13)), temos
p
" N N
!#
1X X X
Z (β, h) = Tr exp β Jij Si Sj + hµ ξiµ Si . (4.4)
s 2 i, j6=i µ=1 i=1

Como as forcas de conexão sinápticas obedecem a regra de Hebb (3.2), é possível chegar a
seguinte identidade,
N p N
!2
X 1 X X µ
Jij Si Sj = ξ Si − p. (4.5)
i, j6=i
N µ=1 i=1 i
4.1 TCM - Limite de p finito 17

Introduzindo a equação obtida, linhas acima, na expressão da função de partição (4.4), temos
 !2 
p N p N
1 X X X X
Z (β, h) = e−βp/2 Tr exp β  ξiµ Si + hµ Siµ  .
s 2N µ=1 i=1 µ=1 i=1

µ
Fazendo uso da variável xµ = N −1
P
i ξi Si , e definindo-se os vetores p dimensionais ~x =
Pp µ ~ Pp hµ êµ , temos
µ=1 x êµ e h = µ=1
 
−βp/2 βN →
− 2 →
− → −
Z (β, h) = e Tr exp x + βN h · x . (4.6)
s 2
Para desacoplarmos os termos quadráticos na equação anterior, se usa um grão truque chamado
de identidade de Hubbard-Stratonovich[18], que é uma observação do resultado de uma integral
gaussiana,
p
+∞
dy µ √ →
Z  
1→
exp →
− − − →

Y
a2 = 2

√ exp − y + 2 a · y . (4.7)
−∞ µ=1
2π 2
Assim, usando 4.7, é possível rescrever o termo quadrático em (4.6), na forma
Z +∞ Y p  →−
dy µ y2
h → 
−βp/2 − p → −



i
Z (β, h) = e Tr √ exp βN h + βN y · x · exp −
s −∞ µ=1 2π 2
Z +∞ Y p  → −
dy µ h y2
 → 
−βp/2 − p → −



i
= e √ Tr exp βN h + βN y · x · exp − .
−∞ µ=1 2π s 2

Usando a definição de xµ , e tomando o traço sobre {Si }, apos inverter a ordem do traço com a
integral, temos
+∞ p N  →−
dy µ Y h y2
 → 
− p →  →

Z

Y i
−βp/2
Z (β, h) = e √ 2cosh βN h + βN y · ξ i /N · exp − .
−∞ µ=1
2π i=1
2

Nesta ultima expressão, é possível realizar facilmente o traço sobre os estados, devido a que
este pode-se escrever como um produto de N termos, cada um dependendo de um único Si com
diferente i.

Fazendo o reescalamento y µ → βN y µ , na expressão anterior, com o objetivo de garantir
a extensidade da energia livre, obtêm-se
p
Z +∞ Y ( N )
µ
dy →− →
− βN →
ln 2coshβ h + →
− −
X h   i
Z (β, h) = (βN )p/2 e−βp/2 √ exp y · ξi − y2 .
−∞ µ=1 2π i=1
2

No limite termodinâmico, quando N → ∞, é possível resolver a a integral em y µ pelo método


de ponto de sela, o qual usa a seguinte aproximação
Z +∞ s

dx exp (−N βf (x)) ' exp (−N βf (x0 )) 00
, onde f 0 (x0 ) = 0. (4.8)
−∞ N βf (x0 )
18 Teoria de Campo Médio no modelo de Hopfield

Enquanto p permanece finita, a integral sobre y é dominada por seu valor de ponto sela,
N
1 1 2 1 X h   i
f (β, h) = − ln Z = ~y − ln 2 cosh β ~y + h · ξ~i .
~ (4.9)
Nβ 2 N β i=1

Das equações do método de ponto de sela, ∂f /∂y µ = 0, obtemos os valores de y µ que minimi-
zam o lado direito de (4.9),
N
1 X µ →
− →
− i
ξi tanh β →−
h 
yµ = y + h · ξi . (4.10)
N i=1

No limite termodinâmico, no caso de p finito, os lados das equações (4.9), (4.10), apresentarão
a propriedade de automediancia. Ou seja, as somas N −1 i , produzirão uma media sobre a
P


distribuição de padrões aleatórios ξ , matematicamente;
N
1 X
(. . .) = hh. . .ii−
→.
ξ
(4.11)
N i=1

Obtemos assim, as correspondentes equações de campo médio


p →
1 X µ 2 1 DD h − → −
 →
− iEE
f (β, h) = (y ) − ln 2coshβ h + y · ξ −

2 µ=1 β ξ
DD→− →− − →


− ξi tanh β h + →
h   iEE
y = y · ξ →.
− (4.12)
ξ

Com o objetivo de interpretar fisicamente o valor que o parâmetro de ordem xµ assume no ponto
de sela, calcula-se a media de ensemble das sobreposições a partir da sua definição:
** N
++
1 X
mµ = hSi iT ξiµ .
N i=1 −→
ξ

1
P
Como hSi iT = Z {Si } Si exp (−βH) é a media térmica de spin no sitio i. Conclui-se que
** N
! ++
1 X 1 X ∂f (β, h)
mµ = Si ξiµ exp (−βH) =− .
Z N i=1 −

∂hµ
{Si } ξ

Para achar a expressão de mµ , derivamos (4.12) respeito de hµ , obtendo-se


DD→
− h →
− − → − iEE


m= ξ tanh β h + →
m · ξ →.
− (4.13)
ξ

Da comparação da equação anterior com (4.12), verifica-se que



y =→

m. (4.14)
4.2 TCM - Limite de α = p/N finito 19

Ou seja, o valor que a variável →



y , assume no ponto de sela é exatamente a do “overlap"’ →

m.
Onde o vetor →
−m, que representa o conjunto de “overlaps”, é dado por



m = m1 , m2 , . . . , mp

(4.15)

No modelo estudado se pressupõe interações de alcance infinito entre os neurônios do sis-


tema. O vetor →

m, que caracteriza macroscopicamente os estados de equilíbrio, é dado pela
solução das equações de campo médio (4.13), que corresponde à solução exata do modelo.

4.2 TCM - Limite de α = p/N finito


A continuação, com objetivo de analisar a capacidade de armazenamento do sistema, apresen-
tamos as características gerais da teoria de campo médio do modelo de Hopfield no limite em
que o numero de padrões armazenados p aumenta com o tamanho N da rede, como p = αN
(ou de forma equivalente, no limite em que α permanece finito). Nós, nos concentramos aqui
no caso de padrões aleatórios não correlacionados e seguimos os passos de Amit Goutfreund
Sompolinsky (AGS) em [3].
Sabe-se que o hamiltoniano para o modelo de Hopfield é dado por,
N s N
1 X X
ν
X
H=− Jij Si Sj − h ξiν Si (Si = ±1) , (4.16)
2 i, j=1 ν=1 i=1

onde p é o número de padrões aleatórios aprendidos e hν é um campo conjugado a um dos s


“padrões condensados” {ξiν } finitos (s  p). A força de interação Jij , construída a partir dos p
padrões aleatórios (ξiµ = ±1, µ = 1, . . . , p) obedece a regra de Hebbs (3.8).
Nós tratamos os Jij ’s como congelados ou quenched, pelo que a influencia do processo de
recuperação da memória é ignorado. Ou seja, assumimos que as conexões sinápticas mudam
muito mais lentamente que os estados dos neurônios. Isto é, o modelo de Hopfield trata apenas
os aspectos dinâmicos dos neurônios, e não de todo o processo de aprendizagem ou seja trata-se
de um sistema em que o aprendizado foi completado.
Trataremos então com estados que possuam correlações finitas apenas com um numero finito
s de padrões. A grandeza de interesse a ser calculada neste sistema, é a energia livre media por
neurônio  
−1


f (β) = lim ln Z(β, h) ξ
, (4.17)
N →∞ βN
20 Teoria de Campo Médio no modelo de Hopfield

onde hh. . .iiξ indica a media sobre o desordem quenched {ξiµ } . Para o calculo da energia livre,
é necessário determinar a média
Z
hhln Zii ≡ dJij P ({Jij }) ln [TrS exp (−βH)] , (4.18)

onde o símbolo TrS refere-se ao traço tomado sobre os N spins de Ising, como
N X
Y
TrS E ({Si }) ≡ E ({Si }) . (4.19)
i=1 Si =±1

A media hhln Zii tomada sobre a distribuição P ({Jij }) de todos os padrões binários aleató-
rios {ξiµ } fornece a media da energia livre sobre o desordem quenched. Estimando a média
4.18 corretamente, pode-se obter as quantidades médias das grandezas que queremos conhe-
cer. Desafortunadamente, é muito difícil calcular essa média diretamente, e ela não é idêntica a
ln hhZii[20].
Afortunadamente existe uma técnica, chamada de “método de réplica”, que nos permite
calcular a média de ln Z. Como a média de uma potência de Z é mais facilmente obtida, usa-se
o limite[24]
Zn − 1
ln Z = lim , (4.20)
n→0 n
que dá a energia livre por neurônio calculada sobre os padrões quenched na forma
DD EE
 Z(β, n
 −1
−1 h)
ξ
f (β) = lim lim . (4.21)
N →∞ n→0 βN n
Portanto, uma discussão central é a estimativa da média da função de partição n-replicada,
Z n , e esta é a ideia básica do método de réplica. A função de partição n-replicada, é dada
pelo produto de n funções de partição, correspondentes a n sistemas, ou replicas, idênticas ao
sistema original
  !
n
Y n
Y n
X
Zn = Z({S a }) =  Tr exp (−βHa ) = Tr exp −β Ha . (4.22)
i
a=1 a=1 {Sia } {Sia } a=1

A somatória na exponencial da equação anterior, representa a energia de um sistema de n · N


spins. Note-se que o traço é feito sobre o conjunto total de variáveis de spin.
Usando 4.16, o hamiltoniano de cada replica do sistema, Ha , tera a seguinte forma:
N p s N
a 1 XX µ µ a a X νX ν a
H = − ξ ξ S S − h ξi Si , (4.23)
2N i, j6=i µ=1 i j i j ν=1 i=1
4.2 TCM - Limite de α = p/N finito 21

assim, a expressão de hhZ n ii sera dada por


**  n 
p N
!2 s N
++
Y βN X 1 X 1 X X
hhZ n ii = Tr  exp  ξiµ Sia − βp + β hν ξiµ Sia  .
S
a=1
2 µ=1
N i=1
2 ν=1 i=1
ξ
(4.24)
Para o calculo da media envolvida na equação anterior, desacoplamos os termos quadráticos
usando a identidade de Hubbard-Stratonovich, pelo que a equação de hhZ n ii, toma a forma
** "Z n p p n
r p n N
!
Y Y dy µ 1 X X β X X X
hhZ n ii = e−βpn/2 Tr √ a exp − (yaµ )2 + yaµ ξiµ Sia
S
a=1 µ=1
2π 2 µ=s+1 a=1
N µ=s+1 a=1 i=1
s n s n N
!!#++
X X (y ν ) 2
a
XX p   1 X ν a
× exp − + N βyaν + βN hν ξ S (4.25)
ν=1 a=1
2 ν=1 a=1
N i=1 i i
ξ

Tendo em conta que faremos uma media sobre s padrões ξ’s discretos e uma media sobre
um numero de padrões infinitos, p−s, eventualmente, gaussiano. Seguimos os seguintes passos

1. Calcula-se primeiramente o termo (≡ L1 ) , que corresponde à média aleatória da expo-


nencial para padrões "altos" {ξiµ } (µ > s), obtendo
p p
" n N
r n
!!#
1 X X µ 2 X X β X µ a
L1 = exp − (y ) + ln cosh ya Si , (4.26)
2 µ=s+1 a=1 a µ=s+1 i=1
N a=1

que, no limite N → ∞, toma a forma


p p
" n N X n X n
#
1 X X β X X
L1 ≈ exp − (yaµ )2 + yaµ ybµ Sia Sib . (4.27)
2 µ=s+1 a=1 2N µ=s+1 i=1 a=1 b=1


1. Integrando os yaµ ’s presentes em L1 , e apos o reescalonamento yaν → N βyaν , temos
p
n
Z Y Z Y N
!
Y h p i Y 1 X a b
L1 = dqab exp − Tr [ln ((1 − β) I − βQ)] × δ qab − S S
a=1 µ=s+1 a6=b
2 a6=b
N i=1 i i
Z Y Z Y h p i
= drab dqab exp − Tr [ln ((1 − β) I − βQ)]
a6=b a6=b
2
" n N
!#
N αβ 2 X 1 X a b
× exp − rab qab − S S (4.28)
2 a6=b N i=1 i i

Para finalizarmos os cálculos nos dois primeiros passos, foi preciso usar a equação de
Hubbart-Stratonovich duas vezes e uma das propriedade da Delta de Dirac, os quais
permitiram a introdução de três novas variáveis yaν , qab e rab chamadas “parâmetros de
ordem”.
22 Teoria de Campo Médio no modelo de Hopfield

1. Ao introduzir o resultado obtido em 4.28 na equação 4.25 e tendo em conta o fato de que
a media quenched sobre o número finito de ξ ν ’s pode ser efetuada pela automedianca,
devido a que N → ∞, encontra-se
Z Y Z Y
n ν
hhZ ii ∝ dya dqab drab exp [−N βF (yaν , qab , rab )] (4.29)
νa a6=b

onde
n s n
αn 1 X X ν 2 αβ X α
F = + (ya ) + rab qab + Tr [ln ((1 − β) I − βQ)]
2 2 a=1 ν=1 2 a6=b 2β
** " n n X s
!#++
1 αβ 2 X X
− ln Tr exp rab S a S b + β (yaν + hν ) ξ ν S a ,
(4.30)
β Sa 2 a6=b a=1 ν=1 {ξ ν }

Aqui nós notamos que a média


s
ν 1 X X
hhO {ξ }ii{ξν } ≡ s O {ξ ν } (4.31)
2 ν=1 ξν =±1

denota a média aleatória para s ( p) "padrões condensados". I é uma matriz unitária


com n × n elementos, onde n é um número total de réplicas, enquanto Q é uma matriz de
réplica que fornece o parâmetro de ordem qab , e a (ou b) denota um índice para a replica
a-ésima . Com Tr, denota-se explicitamente que o traço corresponde agora a uma soma
Sa

sobre os valores de spin para cada replica em um único “sitio”.

Note-se que termos de ordem n, no argumento da exponencial em 4.29, foram despreciados


pois no limite termodinâmico, os termos persistentes são os termos de ordem nN . Podemos
concluir que o método das replicas permite-nos por tanto, desacoplar a soma sobre os sítios, ao
preço de um acoplamento sobre as replicas.
As integrais em 4.29, podem ser resolvidas assintoticamente usando o método de Laplace
[11], devido a que o argumento da função exponencial, é proporcional ao numero de neurônios
N . Segundo o método de Laplace, o valor da integral sera dado pelo integrando em seu valor
máximo, a menos de termos da ordem de N −1 . Obtendo-se assim,

hhZ n ii = exp [−N βF (yaν , qab , rab )] + O (N ) (4.32)

onde F (yaν , qab , rab ), dada pela equação 4.30, devera ser mínima.
A aplicação do método de Laplace pressupõe que a inversão na ordem dos limites em N e n
é licita, pois a principio deve-se calcula o limite n → 0 antes de avaliar o limite no numero de
4.2 TCM - Limite de α = p/N finito 23

partículas N . Dita proposição, usada nos trabalhos de Sherrington e Kirkpatrick, foi analisada
em 1979 por Van Hemmen e Palmer [31], que concluíram que, ao menos no modelo SK, não
existe problema em trocar a ordem dos limites.
A densidade de energia livre, f , é dada então por
n s n
α 1 X X ν 2 αβ X
f = limn→0 Fn = + (y ) + rab qab
2 2n a=1 ν=1 a 2n a6=b
α 1
+ Tr [ln ((1 − β) I − βQ)] − hhln Z0 ii{ξν } (4.33)
2βn βn
onde o operador Z0 , é dado por
" n n X s
!#
αβ 2 X X
Z0 = Tr exp rab S a S b + β (yaν + hν ) ξ ν S a , (4.34)
Sa 2 a6=b a=1 ν=1

e as variáveis mνa , qab e rab obedecem as equações de ponto sela


∂F ∂F ∂F
= 0, = 0, = 0. (4.35)
∂mνa ∂qab ∂rab
As equações 4.33 e 4.34 descrevem completamente os estados estáveis do sistema analisado,
no limite N → ∞. Esta teoria de campo médio é exata porque a rede está totalmente conectada,
como no modelo SK [4].
Aqui, enfatizamos que o parâmetro α ≡ p/N se refere a um nível de armazenamento ou
taxa de carregamento de memória, que altera a fase do sistema.
A definição dos parâmetros de ordem mνa , rab e qab em 4.33, podem ser obtidos tomando
os valores de ponto sela em todas as integrais de 4.24. Ao fazer ∂ hhZ n ii /∂mνa = 0 para os
padrões recuperados (condensados) ν ≤ s obtemos
Z ** ++
1 X
−mνa hhZ n ii + . . . Tr ... ξiν Sia =0
S a N i ξ

ou seja, ** ++
N
1 X ν a
mνa = ξ hS i , (4.36)
N i=1 i i T
{ } ξiµ

que é o parâmetro de ordem chamado de “magnetização”, que indica a qualidade de recuperação


do ν-ésimo padrão memorizado para o equilíbrio térmico quenched da replica a. Em 4.36,
h. . .iT , denota uma média térmica, isto é, uma média sobre aquela parte do espaço de estados
que a dinâmica da rede permite. A média pode ser considerada como uma média temporal ou
como uma média de ensemble (conjunto).
24 Teoria de Campo Médio no modelo de Hopfield

De forma semelhante, a partir de ∂ hhZ n ii /∂rab = 0, é possível obter o parâmetro de ordem


de Edwards-Anderson ** ++
N
1 X a
b
qab = hS i S , (4.37)
N i=1 i T i T
{ } ξiµ

que na imagem da réplica caracteriza as correlações causadas pela igualdade de padrões quen-
ched entre duas réplicas termicamente independentes. Ao fazermos ∂ hhZ n ii /∂qab = 0, identifica-
se o multiplicador de lagrange rab , dado por
p
1 X
rab = hhmµa mµb ii{ξµ } , (4.38)
α µ=s+1 i

que é o parâmetro de ordem que descreve o ruido devido aos padrões não condensados (não
recuperados). Em outras palavras, se a rede estiver em um estado com grandes sobreposições
(macroscópicas) com alguns dos padrões memorizados (condensados), o acúmulo das sobrepo-
sições aleatórias com todos os outros padrões cria uma quantidade significativa de ruído.
Para realizar o calculo do limite n → 0 na equação 4.33, que representa a densidade de ener-
gia livre, é necessário considerarmos algum tipo de condição inicial sobre a estrutura de mνa , rab
e qab . Além disso, a introdução destas variáveis, apenas como uma abstrata manipulação algé-
brica, torna possível o calculo da energia livre, sem permitir entretanto a analise termodinâmica
do modelo, que só é possível se estas variáveis possuírem algum sentido físico.

4.2.1 Soluções de simetria de Replicas

A maior parte da discussão de AGS foi realizada dentro da teoria de simétrica de réplicas,
condição inicialmente adotada por Sherrington e Kikpatrick[29]. Na “simetria de replica” se
assume, como uma primeira aproximação, só um pequeno subconjunto dos parâmetros varia-
cionais (yaν , qab , rab ) no qual, a todas as replicas ou pares de replicas, respectivamente, se lhes
atribui os mesmos valores dos parâmetros. Em outras palavras, se assume que cada parâmetro
de ordem é simétrico sob uma permutação de índices de réplica como

mνa = mν ,

qab = q, a 6= b,

rab = r. a 6= b, (4.39)

pelo que é possível minimizar a densidade de energia livre, f , usando apenas estos três
parâmetros de ordem. Aliais agora é mais fácil calcular Tr [ln ((1 − β) I − βQ)], pois a matriz
4.2 TCM - Limite de α = p/N finito 25

(1 − β) I − βQ, sob as condições de simetria de replica, possuirá, um valor próprio 1 − β −


(n − 1) βq não degenerado, e outro valor próprio 1 − β (1 − q) que é (n − 1) vezes degenerado
(vide apêndice ??).
A densidade de energia livre pode ser representada, usando os parâmetros de ordem de
simetria de replica dados em (4.39) após fazer o correspondente processo limite n → 0, como

s  
α 1 X ν 2 αβ α βq
fRS = + (m ) + r (1 − q) + ln (1 − β + βq) −
2 2 ν=1 2 2β 1 − β + βq
** " s
!#++
1 √ X
− ln 2 cosh β z αr + (mνa + hν ) ξ ν (4.40)
β ν=1 z
 2
onde hh. . .iiz ≡ √2π exp − z2 hh. . .ii{ξν } representa uma media dupla: sobre os padrões
R dz

recuperados ξ ν = ±1, e sobre o ruido multiplicativo gaussiano z. A essência da derivação do


ultimo termo é a aplicação da identidade de Hubbard-Stratonovitch (4.7) ao termo quadrático
( a S a )2 que aparece em (4.34).
P

4.2.2 Equações de campo médio

Todas as soluções de fRS , incluindo o mínimo local, são estados estacionários do processo
dinâmico, com barreiras de O (N ). Fazendo a variação de fRS com respeito a y ν , q e r, obtêm-
se às equações para estado estacionário. Assim, depois de fazer uma integração por partes,
temos:
** s
!++
ν ν
√ X
m = ξ tanh β z αr + (mν + hν ) ξ ν (4.41)
ν=1 z
q
r = (4.42)
(1 − β + βq)2
** s
!++
√ X
q = tanh2 β z αr + (mν + hν ) ξ ν (4.43)
ν=1 z
ν
onde a media hh. . .iiz refere-se á media combinada sobre os ξ ’s e sobre o ruido gaussiano dado
R +∞  2
pelo operador integral −∞ √dz2π exp − z2 . Aqui notamos que, no pontos de sela, o valor dos
parâmetros dados pelas eqs. (4.41)-(4.43) tem apenas os significados físicos definidos nas eqs.
4.36-4.38, respetivamente.
Note-se que o campo local (vide o argumento das funções) consiste de três partes; uma
parte “ferromagnética”,→

m, que resulta das sobreposições condensadas, uma parte “vidro de
26 Teoria de Campo Médio no modelo de Hopfield


spin”, z αr, gerada pela soma das sobreposições com o resto de padrões e uma parte “campo
externo", originada pelo agente externo ao sistema.


As equações (4.41) - (4.43), quando h = 0 tem dois tipos de soluções que são localmente
estáveis para variações em →

m, q e r.

1. Uma solução com →



m = 0, q e r 6= 0. Ela representa um estado vidro de spin que não tem
uma sobreposição macroscópica com qualquer um dos padrões.

1. Soluções ferromagnéticas com →



m 6= 0, além de q e r. Essas soluções, que existem para
α suficientemente pequeno, tornam o sistema útil para a memória associativa.

As soluções ferromagnéticas mais importantes são caraterizadas por sobreposições macros-


cópicas com um único padrão mν = mδ νρ , os chamados estados Mattis com n = 1. Existem
em total 2N α soluções degeneradas de este tipo. Quando α → 0 eles se aproximam dos p
finitos estados Mattis[3], que é o caso de duas soluções.

4.3 Soluções em T → 0

Com o objetivo de estudar a capacidade de armazenamento de memoria do modelo de Hopfield,


analisa-se as equações de AGS no limite de ruido zero (T → 0) nos casos do campo externo
estar acoplado com um único padrão armazenado e quando o campo externo é ortogonal com
todos os padrões armazenados.

4.3.1 Campo acoplado com um único padrão

A continuação, lidamos com a solução para a chamada "fase de recuperação ferromagnética"


(FM) correspondente ao caso mν = mδ νρ , ou seja, soluções com uma única sobreposição
finita. Com objetivo de estudar este regime analiticamente, observa-se que no limite T → 0 (ou
β → ∞);
Z Z x/A
dz −z2 /2 2
dz exp −z 2

√ e tanh β (A z + x) → √
2π π 0
 √ 
≡ erf x/ 2A (4.44)
4.3 Soluções em T → 0 27

e que
r
x2
Z  
dz 2 1 2
√ e−z /2 tanh2 β (A z + x) → 1 − exp − 2 . (4.45)
2π βA π 2A
Observe-se que a equação 4.44 foi reescrita usando a função erro, erf (x), definida por
Z x
2
dz exp −z 2 .

erf (x) = √ (4.46)
π 0
Introduzindo estas aproximações, quando T → 0, nas equações (4.41) e 4.43, obtemos
 
m+h
m ' erf √ (4.47)
2αr
" !#
(m + h)2
r
1 2
q ' 1− exp − . (4.48)
β παr 2αr

Observa-se no denominador da equação 4.42, uma ambiguidade aparente pois o produto


β (1 − q) é indeterminado para β → ∞. Porem, o limite pode-se expressar através de m e r.
Com esse objetivo, substitui-se (4.48) na equação 4.42, tendo em conta que a temperatura zero,
o parâmetro de Edwards-Anderson tende a unidade(q → 1), assim

r [1 − β (1 − q)]2 = q
!!2 " !#0
:

2
(m + h)2
r r
2 1 2 (m
 +
 h)

r 1− exp − = 1− exp
−
παr 2αr β παr   2αr
  
" !#!2
(m + h)2
r
2
r 1− exp − ' 1.
παr 2αr
√ √
Ao fazer a seguinte substituição algébrica m = y 2αr e h = h0 2αr na equação anterior e
em (4.47), tem-se, respetivamente
r
√ 2  
2

r− exp − (y + h0 ) ' 1. (4.49)
πα

y 2αr = erf (y + h0 ) . (4.50)

Isolando r em (4.50) e substituindo em (4.50), temos
" #

r
2  
2

y 2α 1 + exp − (y + h0 ) = erf (y + h0 ) .
πα

Pondo em evidencia a variável y, obtemos a seguinte equação


erf (y + h0 )
y = √  . (4.51)
2α + √2π exp − (y + h0 )2

28 Teoria de Campo Médio no modelo de Hopfield

Figura 4.3: Solução da equação 4.51 quando h0 → 0. (esquemático)

Que representa a equação para a magnetização na presença de campos externos. Esta equação
proporciona a dependência da qualidade de recuperação m e o nível de armazenamento α e h.
quando T → 0. A capacidade de armazenamento é simplesmente o valor de α acima do qual a
equação não tem solução, exceto y = 0.

Figura 4.1: m vs α, para diversos valores de h no caso de reconhecimento de um padrão arma-


zenado

Figura 4.2: m vs h, para diversos valores de α, no caso de reconhecimento de um padrão


armazenado.

Campo externo nulo h0 = 0

No caso de campo externo nulo, a equação 4.51 se reduz a uma simples equação para a variável

y = m/ 2αr, ou seja
erf (y)
y=√ . (4.52)
2α + √2 exp (−y 2 )
π

A solução gráfica de 4.52, mostra-se na figura 4.3. Graficamente, uma solução da equação
y = φ (y) é a abscissa do ponto de intersecção da reta z = y e da curva z = φ (y). Na
figura 4.3 se mostra o gráfico da linha reta do lado esquerdo e da curva do lado direito, plotada
para dois valores de α, um acima e outro abaixo de αC = 0.138. Para α < αC , temos três
interseções, o vidro de spin com m = 0 e os estados de recuperação ferromagnética com m
alto, são dinamicamente estáveis e também mínimos de energia. Quando α > αC , somente
a interseção m = 0 persiste. Esta figura torna intuitivamente claro que o desaparecimento
da solução de recuperação ocorre abruptamente. um resultado obtido mediante uma solução
numérica da equação 4.52.
4.3 Soluções em T → 0 29

4.3.2 Campo externo Ortogonal aos padrões armazenados

A aplicação de um campo externo estático a qualquer configuração da rede, aprendida ou ale-


atória (que não tenha sido aprendida), induzirá uma sobreposição diferente de zero com esse
estado. Por exemplo, se
hi = hηi , (4.53)

onde {ηi } é uma configuração de rede, não correlacionada com qualquer um dos {ξi } padrões
que estão embutidos nos acoplamentos Jij , então para valores finitos de p (α = 0) há um estado
metaestável em T = 0, com {Si = ηi }, para h arbitrário. No entanto, assim que α se torna
finito, a sobreposição deste estado metaestável com {ηi } diminui muito acentuadamente. A
potencial utilidade de um campo acoplado a um padrão memorizado, está no fato de que a
sobreposição do estado FM, condensado nesse padrão, permanece alto mesmo quando α não é
muito pequena.
As equações para a magnetização são derivadas, neste caso, pelo procedimento descrito nas
Seções (4.2), exceto que agora todos os ξ’s são calculados na transição da Eq. (4.26) a (4.28).
O resultado é,  
h
m = erf (4.54)
x

ex= 2αr é determinada por

√ √  2 2
x= 2α + 2/ π e−h /x . (4.55)

Para α pequeno, a eq. (4.55) tem duas soluções estáveis, em um dos quais x é muito pequeno
e, portanto, m ' 1.
Para α pequeno, a eq. 6.7 tem duas soluções estáveis, em um dos quais x é muito pequeno
e, portanto, m ' 1. No entanto, este estado desaparece descontinuamente com um valor de
α = α∗(h) que é muito menor que αC (h), (por exemplo, α∗(0.3) = 0.008 e α∗(0.5) = 0.027)
. Curvas de m vs α para o caso de uma configuração aleatória são mostradas na fig. 5 para
h = 0.3 e 0.5.
Deve-se perceber que o aumento no valor de αC , descrito acima, se aplica apenas ao padrão
marcado: o acoplado com h. De fato, a presença de h em um padrão produz ruído aleatório
para os outros padrões. Isso resulta em uma redução no valor de αC , para os outros padrões,
como é representado pela curva tracejada na Fig. 4.
30 Teoria de Campo Médio no modelo de Hopfield

Consequentemente, a melhoria na recuperação de um padrão marcado pode ocorrer às cus-


tas da capacidade de recuperar o restante dos padrões. Em outras palavras, se a rede estiver
um pouco abaixo da saturação, a marcação de um padrão reduzirá o erro em sua recuperação.
Contudo, pode ao mesmo tempo impossibilitar a recuperação de todo o resto dos padrões me-
morizados, reduzindo o α crítico abaixo do nível de armazenamento real. Por outro lado, se a
rede está inicialmente acima da saturação, um padrão marcado pode ser recuperável, enquanto
o dano ao resto do padrões memorizados é irrelevante, já que eles estavam no escuro para co-
meçar.

Figura 4.4: m vs α, para diversos valores de h, no caso de reconhecimento de um padrão


ortogonal.

Figura 4.5: m vs h, para diversos valores de α, no caso de reconhecimento de um padrão


ortogonal.
Capítulo 5

Analise de Ruido Gaussiano

“A humildade é o primeiro degrau para a sabedoria.”


– São Tomás de Aquino.

5.1 Introdução

Uma das primeiras questões que vem a mente é sobre a capacidade de armazenamento das
RNA’s estudadas, ou seja a quantidade de informação que pode ser armazenada e efetivamente
recuperada pela rede.

Neste capitulo, apresenta-se um método alternativo para o calculo da capacidade máxima


de armazenamento de padrões em uma rede de neurônios. Ao final do capitulo, sera possível
fazer uma comparação dos resultados obtido aqui com aqueles calculados no capitulo anterior
pela teoria de campo médio.

Neste capitulo analisaremos a estabilidade dos padrões armazenados mediante argumentos


de ruido Gaussiano, quando T = 0, e seguindo a linha de raciocínio de Weisbuch[7] e Posner,
provaremos que os padrões armazenados serão localmente estáveis somente se α < (2 ln N )−1 .

O método consiste em calcularmos a probabilidade de que todos os padrões armazenados


na rede sejam estáveis no limite N → ∞.
32 Analise de Ruido Gaussiano

5.2 Verificação da estabilidade de padrões armazenados


Nós restringimos nosso estudo à dinâmica sem ruido: T = 0. Então, no modelo de Hopfield, a
condição para que um determinado padrão armazenado I µ , seja um estado dinâmica estável é

Si hi > 0 (i = 1, 2, . . . , N ) , (5.1)

ou seja, os campos locais hi (I µ ) devem estar alinhados ao longo da direção de ξiµ para cada
neurônio i. Então, a influência coerente de todos os neurônios tende a realinhar uma única
unidade mal orientada. Seja I = {σi } um estado da rede. O campo local em i, com Jij
obedecendo a regra de Hebb para p padrões apreendidos, é escrito como
p
N N
!
X X 1 X µ µ
hi (I) = Jij Sj (I) = ξ ξ Sj (I)
j6=i j6=i
N µ=1 i j
p p
N
!
X 1 X X
= Sj (I) ξjµ ξiµ = M µ (I) (5.2)
µ=1
N j6=i µ=1

o que mostra que cada padrão I µ contribui para o campo local com uma quantidade que é pro-
porcional à sua sobreposição com o estado de execução I. Assumindo agora que a rede está
no estado I = I ν , Si = ξiν , ∨i. A soma dos campos na eq. 5.2 é decomposto em uma contri-
buição coerente decorrente da aprendizagem de I ν e uma contribuição incoerente resultante da
aprendizagem de todos os outros padrões I µ , µ 6= ν:
N p N
1 X ν ν ν 1 X X µ µ ν
hi (I ν ) = ξi ξj ξj + ξ ξ ξ
N j6=i N µ6=µ j6=i i j j
0

Np
N −1 ν 1 XX
= ξi + ξiµ ξjµ ξjν (5.3)
N N µ6=ν j6=i

A continuação apresentamos a quantidade normalizada, chamada de estabilidade do padrão


{ξ ν }no i-esimo neurônio.
ν ν
P
ν ξi
ν
hi (I ν
) ξi j6=i Jij ξj
4i ≡ qP = qP . (5.4)
2 2
J
j6=i ij J
j6=i ij

Então, da equação 5.1, podemos dizer que o estado Si ≡ ξiν é estável se o parâmetro estabilidade
normalizado (I ν ) é positivo, 4νi > 0, em qualquer sitio i.
Da definição 5.4 e usando as forcas de conexão 3.8, aproxima-se o denominador de norma-
p
lização com sua media p (N − 1) /N 2 que sera exata se N → ∞, temos
s
p N
N −1 1 X X
ν
4i = +p ξiµ ξiν ξjµ ξjν . (5.5)
p (N − 1) p µ6=ν j6=i
5.3 Capacidade de armazenamento para α = p/N finito 33

A soma sobre µ, foi separada em duas partes. O primeiro termo, com µ = ν, chamado de si-
nal normalizado, corresponde ao padrão cuja estabilidade está sendo investigada, já o segundo
termo, denominado ruido normalizado, inclui a contribuição de todos os outros padrões arma-
zenados. Se o termo “ruido” for comparável ao termo “sinal”, o estado ξiν sera desestabilizado.

Na literatura, se disse que dois padrões são ortogonais se sua sobreposição desaparece, ou
seja

1 X µ ν
M µν = ξ ξ = 0. (5.6)
N µ i i

Se todos os padrões armazenados no sistema fossem ortogonais, o termo de ruido da equação 5.3
desaparece e uma boa estabilidade é alcançada para todos os padrões memorizados, pois nessa
situação (em linguagem magnética) todo spin sentira um campo interno ao longo da direção
que ele já aponta, então (a temperatura zero) ele nunca mudara sua orientação. No entanto, não
é possível que mais de p = N padrões sejam ortogonais e a capacidade máxima de memória
ainda seja limitada a N .

5.3 Capacidade de armazenamento para α = p/N finito

O termo ruído contém uma soma de (N − 1) (p − 1) bits aleatórios de +1 e −1. Como os bits
de padrões diferentes no mesmo sitio e os bits dos mesmos padrões em sítios diferentes não
são correlacionados, a soma de estos bits no termo de ruído é equivalente a uma “Caminhada
aleatória” unidimensional de (N − 1) (p − 1) passos de tamanho unidade. Em tal caminhada,
são feitas medidas para a frente e para trás. A soma, o ponto final da caminhada, sera uma
p
variável aleatória que irá flutuar em torno de zero e cuja dispersão sera de (N − 1) (p − 1).
Então, com o fator na frente da soma aleatória, para N  1 e p  1, obtemos

s
N
4νi ≈ +z (5.7)
p

sendo z uma variável aleatória Gaussiana de media zero e dispersão unitária. A probabilidade
de que 4νi seja negativa, ou seja que o padrão ξiν se desestabilize é igual à probabilidade do
34 Analise de Ruido Gaussiano

q
N
termo ruido normalizado z ultrapasse o termo de sinal p
. Este é dado por
" s # q q
N N
Z − Z −
N p 1 p
[4νi √ exp −z 2 /2 dz
 
P < 0] = P z < − = P (z) dz =
p −∞ −∞ 2π
Z qN " s !#
1 1 p 1 N
exp −z 2 /2 dz =
 
= −√ 1 − erf , (5.8)
2 2π 0 2 2p
Rx 2
onde erf (x) = √2π 0 e−t dt é a função de erro complementar[1] e
p
α≡ . (5.9)
N
Considerando a variância de hνi , ∆2 ≡ hh2i i − hhi i2 ≈ p/N , como variável (vide eq. 5.3), na
equação 5.8, temos
Z 1/√x
1 1
exp −z 2 /2 dz
 
P (x) = − √ (5.10)
2 2π 0
Para x pequeno, a função P (x), é linear em x na vizinhança de x1 = 1/3, o ponto de inflexão.
Ele pode ser aproximado (vide fig. 5.1) por uma linha reta passando por x1 ,P (x1 ) = 0.042 de
3 3/2 ∼
| = √1π 2e

inclinação dP
dx x1 = 0.2313, que cruza o eixo x em x0 = 0.153. Para x < x0 ,
P (x) ' 0[15]. Depois do ponto de cruzamento em 0.153, errores na recuperação são esperados.
O numero máximo de padrões q podem ser aprendidos antes dos erros na recuperação tornar-
se importantes é portanto p = 0.153N , em excelente acordo com resultados teóricos [9] e
numéricos [17, 26] (α = 0.145 ± 0.009). A prescrição para capacidade de armazenamento
máximo é então
αC ≡ 0.153. (5.11)

Figura 5.1: Probabilidade de hi ξiν < 0 como uma função x = ∆2 .

5.3.1 Recuperação de padrões sem erros

Se tentarmos desestabilizar um determinado padrão, o padrão I 1 por exemplo. Partindo de I 1 ,


giramos uma de suas unidades. Podemos dizer que o novo estado, I 1,1 , pertence à bacia de
atração de I 1 se a dinâmica do sistema devolve I 1,1 a I 1 . Se este for o caso, giramos uma
das unidades de I 1,1 e verificamos se o relaxamento traz esse novo estado I 1,2 , de volta para
I 1 e assim por diante até que o estado perturbado I 1,R eventualmente não retorne a I 1 . Este
procedimento fornecera uma estimativa do tamanho R da bacia de atracão associada a I 1 .
5.3 Capacidade de armazenamento para α = p/N finito 35

Considera-se que 4νi e 4νj são variáveis aleatórias independentes para i 6= j. De fato,
elas são somas de termos independentes (vide a eq. 5.5), além do termo Jij ξiν ξjν que é comum
para os dois. No entanto, para um modelo com conectividade macroscópica, em que cada spin
(ou neurônio) esta conectado a infinitamente muitos outros quando N → ∞, a contribuição
desse único termo é insignificante em relação aos muitos outros termos independentes. Usando
essa independência, a probabilidade, P0 , de que todos os estados armazenados sejam estáveis
(nenhum erro) é dada por
 r  N
p N
P0 = 1− exp − (5.12)
2N π 2p
Se desejamos que esta probabilidade P0 seja próxima de 1, P [4νi < 0] sera da ordem de 0 e a
função erf, em consequência, da ordem de 1. O argumento da função de erro deve, portanto, ser
grande e a seguinte expansão assintótica pode ser usada:
1
erf (x) ' 1 − √ exp −x2 .

x π
Assim, da eq. 5.12, temos
" s !!#N  r  N
1 N p N
P0 = 1 + erf ' 1− exp − . (5.13)
2 2p 2N π 2p

Tomando o logaritmo dos dois lados desta equação e usando a expansão ln (1 − x) ' −x para
x’s pequenos, encontra-se uma equação implícita para α
r  
α 1 −1
exp − = ln P0 . (5.14)
2π 2α N
Toma-se novamente o logaritmo da equação anterior, depois de elevar ao quadrado ambos os
membros, obtemos
N N
= ln 2π (ln P0 )2 .
 
2 ln N − − ln (5.15)
p p
Observa-se das simulações numéricas que, o valor de α é praticamente invariável quando P0
esta entre 0.1 e 0.9, ou seja o lado direito permanece finito. Quando N → ∞, o ultimo termo
do lado esquerdo da equação é insignificante, por tanto 1/α devera variar como 2 ln N , para
satisfazer o requisito de finitude[32]. Obtendo-se assim o limite superior, abaixo do qual o
requisito é cumprido
1
α≤ . (5.16)
2 ln N
Além disso, é necessário ter em conta uma degeneração fundamental da rede, a saber:
36 Analise de Ruido Gaussiano

• Se um estado I = {Si } é estável, então o estado I 0 = {−Si } é também estável.

Esta é uma propriedade das redes neurais conectadas através de interações quadráticas. Cu-
riosamente, isto permanece válido mesmo quando as interações Jij não são simétricas.
Finalmente, o número máximo pC de padrões aleatórios independentes que uma rede Heb-
biana pode armazenar e recuperar sem nenhum erro é

N
pC = . (5.17)
4 ln N

É possível remover estas rígidas limitações no numero de padrões armazenados, se per-


mitirmos uma pequena fração finita de bits desalinhados. Na verdade, não é necessário nos
preocupar com a estabilidade exata dos padrões memorizados. Para fins de armazenamento e
recuperação, é suficiente que existam pontos estacionários do processo dinâmico que estejam
próximos o suficiente dos padrões armazenados, de modo que o mecanismo de leitura biológica
possa tirar as conclusões corretas.
Neste capitulo mostrou-se que o análise sinal ruído é uma ferramenta útil para estimar o local
da falha nas variantes do modelo. Esta ferramenta permitiu estimar que o erro de recuperação,
no modelo de Hopfield, alcançaria o valor crítico αC = 0.145. Esta estimativa apoia-se no
calculo de tipo campo médio feito na secção 4.2.
A visão de que é o nível geral de ruído que determina a evolução na bacia de atração de
um único padrão, foi retomada em um cálculo dinâmico mais quantitativo por Krauth[21]. No
caso das amplitudes de aprendizagem dos diferentes padrões forem desiguais, um limitante é
que, um padrão suficientemente forte pode desestabilizar o mais fraco muito antes que o ruído
chegue a um nível perigoso (Pazmandi [25]).
Capítulo 6

Modelo Curado-Nobre

“Toda pergunta é um grito para entender o mundo. Não existe isso de pergunta idiota.”
– Carl Sagan.

erificou-se que o modelo de rede neural de Hopfield, descrito em capítulos anteriores é


V capaz de recuperar ou reconhecer padrões memorizados para α ≤ αC ≈ 0.14 com um
erro menor que 1, 5%[19, 5].

Neste capitulo aborda-se o problema de melhorar a aprendizagem de um subconjunto finito


de memoria. Uma forma de melhorar a aprendizagem de um grupo de padrões memorizados, é
mediante o acoplamento deles a um campo externo [5]. Porem, este enfoque apresenta algumas
dificuldades: no caso da rede estar um pouco abaixo da saturação, a marcação de um padrão
reduzira o erro em sua recuperação. Não obstante, pode ao mesmo tempo impossibilitar a
recuperação de todo o resto dos padrões memorizados, reduzindo o α crítico abaixo do nível de
armazenamento real. Por outro lado, se a rede está inicialmente acima da saturação, um padrão
marcado pode ser recuperável, enquanto o dano ao resto do padrões memorizados é irrelevante,
já que eles estavam no escuro inicialmente.

Infelizmente, a eficiência deste mecanismo para melhorar a aprendizagem diminui rapida-


mente quando o numero de padrões marcados se incrementa, tornando-se inútil [13]. Nos in-
tentaremos driblar esta limitação e estudaremos uma situação especifica do reconhecimento de
padrões, modificando adequadamente o campo externo acoplado a uma determinada memoria.
38 Modelo Curado-Nobre

6.1 O modelo

Motivados na biologia, abordaremos o seguinte problema: o cérebro humano reage, geralmente,


frente à foto de uma pessoa, da seguinte forma; se a foto pertence a um conhecido, mesmo
tendo algumas caraterísticas diferentes, rapidamente lembramos dele, ou seja nosso cérebro
recupera uma memoria armazenada. Já se a foto é de alguém desconhecido, submetido a ela,
o nosso cérebro armazena e recupera quase instantaneamente essa nova memoria. Tendo esse
comportamento em conta, deve-se modificar o modelo de Hopfield de tal forma que, mesmo
estando com a rede sobrecarregada, ou seja α > αC , ela reconhecera padrões conhecidos e
desconhecidos. A foto do exemplo dado linhas acima, sera representada no nosso modelo como
o campo externo.
No caso da foto pertencer a um conhecido nosso, pode que ela apresente detalhes adicionais
tais como mudança de idade, óculos, penteado novo, ....etc. Estas “mudanças” no padrão ar-
mazenado, serão representadas no nosso modelo com o parâmetro γ. Já o tempo de exposição
ao qual a pessoa foi exposta à foto, pode ser representado por um parâmetro κ. Nosso objetivo
sera achar o valor adequado de κ, afim de obter um reconhecimento quase perfeito da pessoa na
foto, mesmo para uma perturbação,γ, grande.
Assim, com o objetivo de melhorar a aprendizagem de um determinado padrão, se introduz
um campo externo o qual representa os estímulos externos que iniciam a recuperação. Nos
introduzimos no neurônio i um campo externo da forma
N
X
hi = κηi (6.1)
i=1

onde ηi obedece a seguinte distribuição de probabilidade

P (ηi ) = γδ ηi − ξiθ + (1 − γ) δ ηi + ξiθ


 
(6.2)

O campo externo, assim definido, indicara uma porcentagem de exatidão, γ%, com o padrão
marcadoθ. Ou seja γ, pode-se interpretar como uma perturbação do padrão armazenado, θ.
O parâmetro κ sera escolhido com objetivo de zerar o ruido resultante da sobreposição dos
outros padrões armazenados com o padrão marcadoθ, permitindo assim uma recuperação quase
perfeita do padrão marcado mesmo com γ, grande.
O campo molecular total, que atua sobre o neurônio i, no modelo Curado-Nobre, com Jij
6.1 O modelo 39

obedecendo a regra de Hebb para p padrões apreendidos, é então escrito como


p N N
1 X X µ µ X
hi (I) = ξ ξ Sj (I) + κηi (I) . (6.3)
N µ=1 j6=i i j i=1

Assumindo agora que a rede esta no estado I = I θ , Si = ξiθ , ∨i. Fazemos a decomposição
coerente e incoerente da soma dos campos na equação 6.3, obtendo:

N p N N
1 X θ θ θ 1 X X µ µ θ X
hi (Iη ) = ξ ξ ξ + ξ ξ ξ + κηi
N j6=i i j j N µ6=θ j6=i i j j i=1
p N N
N −1 θ 1 XX µ µ θ X
= ξi + ξi ξj ξj + κηi . (6.4)
N N µ6=ν j6=i i=1

O nosso objetivo é encontrar um valor adequado para κ que permita anular o segundo termo do
lado direito da equação anterior. Ou seja, tenta-se anular o ruido gerado pela sobreposição do
padrão marcado, com os outros padrões armazenados usando o termo adicional.
Se adicionamos o campo externo 6.1 ao Hamiltoniano de Hopfield, obtêm-se
p s N N
1 XX µ µ X
ν
X
ν
X
H = − ξi ξj Si Sj − h ξi Si − κηi Si ,
N µ=1 ν=1 i=1 i=1
(ij)

o qual representara a energia do nosso modelo. Seguindo as mesmas ideias mostradas nos
capítulos anteriores, é possível estudar as características em T = 0 que tera o nosso modelo.

6.1.1 Teoria de Campo médio no modelo CN

Fazendo uso do método de replicas para o analise da capacidade de armazenamento do sistema,


no caso de α = p/N finito, seguimos os mesmos passos para o calculo da energia livre da rede
neural de Hopfield, detalhados na seção 4.2. Chegando-se a seguinte expressão para a energia
livre
n s
αn 1 X X ν 2 α
f {y, q, r} = + (ya ) + Tr [ln ((1 − β) I − βQ)]
2 2 a=1 ν=1 2β
αβ X 1D E
+ rab qab − hln Z0 i{η} ,
2 a6=b β {ξ ν }

onde
" N n X s n
!#
αβ 2 X a b
X
ν ν ν a
X
Z0 = Tr exp rab S S + β (ya + h ) ξ S + βκ ηS a . (6.5)
Sa 2 a6=b a=1 ν=1 a=1
40 Modelo Curado-Nobre

Ao termos em conta a simetria de replicas, obtemos a energia livre por neurônio,


 
α 1→ − 2 αβ α βq
fRS = + m + r (1 − q) + ln (1 − β + βq) −
2 2 2 2β 1 − β + βq

Z i
1 h  
→− →
−  →

− dηP (η) ln 2 cosh β z αr + m + h · ξ + κη .
β

Observe-se que é necessário tomar primeiramente uma media em η devido a que sua distribuição
de probabilidades P (η), depende de ξ θ . A media hh. . .ii refere-se á media combinada sobre os
R +∞ dz  2
ξ ’s e sob o ruido gaussiano dado pelo operador integral −∞ 2π exp − z2 .
ν √

6.1.2 Equações de campo médio

Para obter as equações de campo médio, calcula-se a variação de fRS com respeito a mν , q e r.
Ao fazer o calculo das derivadas parciais de fRS , obtemos as equações de ponto sela;

mν = γ ξ ν tanh β Ξ + κξ θ + (1 − γ) ξ ν tanh β Ξ − κξ θ


(6.6)
q
r = (6.7)
(1 − β + βq)2
q = γ tanh2 β Ξ + κξ θ + (1 − γ) tanh2 β Ξ − κξ θ


(6.8)

√ →
− →

onde Ξ = z αr + →−

m+ h · ξ.

6.1.3 Soluções em T → 0

Agora indo ao núcleo da teoria AGS em T → 0. Tratamos com a solução para a chamada
 “fase
1 ν = θ

ν
de recuperação ferromagnética (FMR)”, correspondente ao caso em que m ∼
0 ν 6= θ



(nos representaremos ele como m). Analisando no limite de T → 0 e considerando h = 0,
reescreve-se as medias envolvidas no calculo de m, q e r nas equações eqs. (6.6)-(6.8) (vide
apêndice (??)). Obtendo-se
   
m+κ m−κ
m = γerf √ + (1 − γ) erf √ (6.9)
2αr 2αr
q
r = (6.10)
(1 − β + βq)2
" ! !#
(m + κ)2 (m − κ)2
r
1 2
q = 1− γ exp − + (1 − γ) exp − . (6.11)
β παr 2αr 2αr
6.1 O modelo 41

Substituindo (6.11) na equação (6.10), no limite β → ∞;


" ! !#!2
(m + κ)2 (m − κ)2
r
2
r 1− γ exp − + (1 − γ) exp − ' 1.
παr 2αr 2αr
√ √
Ao fazer a troca de variável m = y 2αr e κ = κ0 2αr , apos tomar a raiz quadrada em ambos
lados da equação anterior, chegamos a seguinte expressão
r
√ 2  
2
 
2

r− γ exp − (y + κ0 ) + (1 − γ) exp − (y − κ0 ) ≈ 1. (6.12)
πα

Apos tomar a raiz quadrada em ambos lados da equação anterior e usando a equação (6.9),
chegamos as equações para o modelo Curado–Nobre, no caso do reconhecimento de um padrão
γ% diferente do armazenado;

γerf (y + κ0 ) + (1 − γ) erf (y − κ0 )
y = √
√2 γ exp − (y + κ0 )2 + (1 − γ) exp − (y − κ0 )2
  ,
2α + π
m = γerf (y + κ0 ) + (1 − γ) erf (y − κ0 ) , (6.13)
√ √
onde m = y 2αr e κ = κ0 2αr.
Partindo da equação (6.13), é possível obter equações já conhecidas na literatura.
Ao fazermos γ = 1, é possível obter as equações no caso do reconhecimento de um padrão
previamente armazenado,

erf (y + κ0 )
y = √ ,
2α + √2π exp − (y + κ0 )2
m = erf (y + κ0 ) . (6.14)

Esta equação é idêntica a equação obtida em (4.51), se fizermos κ0 = h0 (ou κ = h).


Assumindo que y + κ0 → κ0 , na equação 6.14, obtêm-se as equações no caso do reconheci-
mento de um padrão não armazenado (ortogonal):

erf (κ0 )
y = √ 2 ,
2α + √2 exp − (κ0 )
π
m = erf (κ0 ) .

que são idênticas às equações obtidas em 4.54, considerando κ0 = h0 (ou κ = h).


42 Modelo Curado-Nobre
Capítulo 7

Resultados e Discussões

“Toda pergunta é um grito para entender o mundo. Não existe isso de pergunta idiota.”
– Carl Sagan.

erificou-se que o modelo de rede neural de Hopfield, descrito em capítulos anteriores é


V capaz de recuperar ou reconhecer padrões memorizados para α ≤ αC ≈ 0.14 com um
erro menor que 1, 5%[19, 5]. O objetivo do modelo Curado-Nobre, é vencer este limiar, dado
pelo modelo de Hopfield, e permitir o reconhecimento de padrões armazenados mesmo com
α > αC .

O programa usado para a resolução do sistema de equações não lineares em cada situação
foi o Maple XV. Verificou-se que a solução numérica de um sistema de equações não lineares,
não é algo tão trivial. Apos tentar criar um programa que automatize a obtenção das soluções
positivas do sistema de equações, encontrou-se regiões onde o Maple não conseguia obter mais
que uma solução ou se encontravam soluções sem sentido, sendo que na literatura mostrava-
se duas soluções[4]. Apos analise teste-erro, chegou-se a conclusão que o melhor jeito de
resolver o sistema de equações não lineares, é reescrevendo-as, usando uma variável auxiliar x
√ 
e separando o numerador (m) e o denominador 2αr da equação obtida para y. Assim, as
equações trabalhadas no Maple, serão

• Para o modelo Curado - Nobre, caso do reconhecimento de um padrão γ% diferente do


44 Resultados e Discussões

armazenado:
" 2 ! 2 !#

 
2 m+κ m−κ
x = 2α + √ γ exp − + (1 − γ) exp − ,
π x x
   
m+κ m−κ
m = γerf + (1 − γ) erf . (7.1)
x x

• No caso do reconhecimento de um padrão armazenado (γ = 1)


2 !


2 m+κ
x = 2α + √ exp − ,
π x
 
m+κ
m = erf .
x

• Para o caso do reconhecimento de um padrão ortogonal



  
2 κ 2
x = 2α + √ exp − ,
π x
κ
m = erf .
x

sendo x = 2αr, para todos os casos.
Como estamos interessados em achar o valor de κ que anula o termo de ruido, presente no
campo molecular
p N N
θ
 N −1 θ 1 XX µ µ θ X
hi I = ξ + ξ ξ ξ + κηi , (7.2)
N i N µ6=ν j6=i i j j i=1

faremos um analise gráfico m vs κ para diversos valores de γ e α. Nas figuras (??)-(??), se


faz a comparação da magnetização obtida no modelo Curado Nobre mCN , para um determi-
nado padrão γ% perturbado, e a magnetização mh , conseguida no reconhecimento de padrões
ortogonais. O objetivo é achar o valor máximo do modulo da diferença 4m = mCN − mh ,
esta variação indicara onde que se encontra aproximadamente o valor de κC , que minimiza o
ruido gerado pela sobreposição do padrão marcado com outros padrões armazenados. Cabe
ressaltar que outros valores de κ maximizam também a diferença 4m. Esses valores de κ são
tao grandes que, permitem que o terceiro termo da equação 7.2 seja muito superior ao termo de
ruido, forçando o reconhecimento do padrão ξ θ . O reconhecimento do padrão armazenado ξ θ ,
acontecera mesmo se α > αC .
Na figura ??, temos o gráfico mCN vs κ para γ = 0.74, mh vs κ e 4m vs κ, com diferentes
valores de α. Somente se aprecia um valor de κC no caso de α = 0.5. Para este valor do
45

parâmetro γ, se α for superior a 0.5, observa-se que κC desaparece e somente temos recuperação
para κ grande. Termos γ = 0.74 como um limitante, significa que o padrão ηi pode ser somente
36 diferente do padrão marcado ξ θ , para obtermos um valor de κC .
Já nas figuras ??,?? e ?? observamos que os valores de κC aumentam a medida que o
parâmetroα cresce desde 0.5 a 1.0 e diminuem quando o parâmetroγ aumenta de 0.74 a 1.0.
Resulta interessante notar, das figuras obtidas, que mesmo para α = 1.0, ou seja mesma
quantidade de padrões armazenados que neurônios no sistema, consegue-se uma recuperação
perfeita do padrão armazenado mediante uma escolha adequada de κC . Isto pode ser verificado
mediante simulações computacionais.
46 Resultados e Discussões
Capítulo 8

RNED totalmente conectado

8.1 O Modelo de Hopfield


No modelo de Hopfield, a rede é formada por N neurônios formais interconectados Si . Cada
neurônio pode estar ou no estado de disparo (Si = +1) ou no estado quiescente (Si = −1). Os
estados neuronais são dados pelo conjunto de variáveis S = (S1 , . . . , SN ).
A eficácia sináptica do neurônio j sobre o neurônio i, Jij , obedece a regra de Hebb,
p
1 X µ µ
Jij = ξ ξ [1 − δ (i − j)] , (8.1)
N µ=1 i j
onde δ (x) de Kronecker é igual a 1 se x = 0, e zero em outros casos. Os p conjuntos ξ µ =
(ξ1µ , . . . , ξN
µ
) , ξiµ = ±1 são algumas configurações da rede que foram fixadas pelo processo de
aprendizagem. Estas entradas, são usualmente escolhidas aleatória e independentemente com
igual probabilidade, ou seja,
1
P (ξiµ ) = [δ (ξiµ − 1) + δ (ξiµ + 1)] . (8.2)
2
Usualmente, assumem-se esses padrões como quenched, ou seja, a performance da rede é ana-
lisada mantendo os valores sinápticos fixos.
A energia do sistema é dada pelo Hamiltoniano
N N p
1 X 1 XX µ µ
H=− Jij Si Sj = − ξ ξ Si Sj , (8.3)
2 i, j=1 2N i, j=1 µ=1 i j
onde o campo que age sobre o neurônio i, é
N
X
hi = Jij Sj . (8.4)
j6=i
48 RNED totalmente conectado

Essa rede funciona como uma memória associativa: definindo a rede em um padrão ξ µ (ou
próximo a ξ µ ), ela relaxa sob uma dinâmica apropriada em direção a um estado estacionário
próximo.
Ao longo do paper, nós assumiremos que o sistema evolui, obedecendo a dinâmica de Glau-
ber para redes sem ruído, ou seja

Si (t + 1) = sign [hi (t)] . (8.5)

A proximidade entre os estados α e β é medida pela sobreposição mαβ , dada por


N
1 X α β
mαβ = S S . (8.6)
N i=1 i i

Essa magnetização, pode ser calculada em alguns casos, usando o método de réplicas.
Neste informe, estudamos as redes neuronais, sob uma perspetiva diferente. Na secção 8.2
descrevemos um novo modelo de rede neuronal. Nos calculamos, mediante o método de ré-
plicas, a magnetização do sistema e procuramos um valor ótimo de κ que permita otimizar o
reconhecimento. Na secção 9.2, usando simulações Monte Carlo do modelo RNED nós calcu-
lamos diferentes magnetizações como uma função de κ, para os casos em que o sistema tem
padrões armazenados descorrelacionados e correlacionados.

8.2 O Modelo RNED

8.2.1 A generalização do campo molecular

O modelo de reconhecimento de padrões estimulo-dependente (RNED), apresenta uma perspe-


tiva diferente sobre o comportamento do cérebro, no processo de reconhecimentos de padrões.
Mesmo com um número de padrões armazenados muito grande, o cérebro tem a capacidade
de recuperar um determinado padrão "marcado"com surpreendente eficiência. Com objetivo
de reproduzir este comportamento biológico, propõe-se mudar o campo molecular de Hopfield
(vide eq. (8.4)), adicionando um termo chamado de campo externo, da forma
N
X
hext
i =κ ηi . (8.7)
i=1

Esse termo aponta diretamente para um padrão marcado η, beneficiando seu reconhecimento.
κ, é um parâmetro auto regulável e representa o esforço do cérebro em reduzir o ruído presente
8.2 O Modelo RNED 49

no processo de reconhecimento de uma memória armazenada. O padrão ηi , que pode ser um


padrão apreendido ou não, obedece a seguinte distribuição de probabilidade

P (ηi ) = γδ ηi − ξiθ + (1 − γ) δ ηi + ξiθ ,


 
(8.8)

onde γ indica uma porcentagem de perturbação do padrão ηi respeito do padrão marcado, θ.


O campo molecular total, que age sobre o neurônio i, no modelo RNED, será
N
X N
X
hi = Jij Sj + κηi . (8.9)
j6=i i=1

Em consequência, o Hamiltoniano do sistema RNED, H, terá a forma


p N
1 XX µ µ X
H=− ξi ξj Si Sj − κηi Si . (8.10)
N µ=1 i=1
(ij)

O sistema evoluirá obedecendo (8.5), mas com esse novo campo molecular.

8.2.2 Estimativa de κ ótimo

Assumindo que a rede está no estado de equilíbrio Si = ξiθ , ∨i, com Jij , fazemos a decompo-
sição coerente e incoerente da soma dos campos na equação (8.9), obtendo-se:
p N N
N −1 θ 1 XX µ µ θ X
hi = ξi + ξi ξj ξj + κηi . (8.11)
N N µ6=ν j6=i i=1

Na equação anterior, o primeiro termo do lado direito (sinal), que representa o valor dese-
jado para o campo molecular hi é idêntico a unidade. O segundo termo (ruído), no caso de
padrões não correlacionados, contém uma soma de (N − 1) (p − 1) termos aleatórios, cada
um dando uma contribuição +1 ou −1 para a soma. Este é o famoso problema do passeio
aleatório e o resultado é que o ruído é uma variável aleatória Gaussiana com uma dispersão
1
p
N
(N − 1) (p − 1) ≈ α. Como desejamos que o campo externo (terceiro termo) anule o

ruído, basta escolher κ = α.

8.2.3 Teoria de campo médio

Nós calculamos a energia livre média por spin, do sistema RNED,

1
f =− hln [Tr exp (−βH)]iξ , (8.12)
βN
50 RNED totalmente conectado

com auxílio do método de réplicas. h. . .iξ indica a média sobre o desordem temperado {ξiµ }.
Seguindo os passos de Amit et al. [5], a energia livre temperada pode-se expressar em termos
dos seguintes parâmetros de ordem:

(a) a sobreposição macroscópica com s padrões marcados


* N
+
1 X
mν = ξiν hSi iT ν = 1, ..s (8.13)
N i=1
ξ

(b) o parâmetro de ordem de Edwards-Anderson


* N
+
1 X
q= hSi i2T (8.14)
N i=1
ξ

(c) o ruído devido aos p − s padrões não recuperados


p
1 X
µ 2
r= (m ) ξ (8.15)
α µ=s+1

Aqui h. . .iT representa a média térmica.

Obtendo-se a seguinte expressão para a energia livre


s  
α 1 X ν 2 αβ α βq
f = + (m ) + r (1 − q) + ln (1 − β + βq) −
2 2 ν=1 2 2β 1 − β + βq
** " s
!#+ +
1 √ X
− ln 2 cosh β z αr + mν ξ ν + κη (8.16),
β ν=1 η z
 2

√dz exp − z2
R
onde h. . .iz ≡ 2π
h. . .iξν representa a média combinada sobre os padrões
condensados(recuperados) ξ ν , e sobre o ruído multiplicativo gaussiano z. A variação de f com
respeito aos parâmetros de ordem proporciona as equações de ponto-sela

** s
!+ +
ν ν
√ X
ν ν
m = ξ tanh z αr + m ξ + κη
ν=1 η z
** s
!+ +
√ X
q = tanh2 z αr + mν ξ ν + κη
ν=1 η z
q
r = . (8.17)
(1 − β + βq)2
8.2 O Modelo RNED 51

8.2.4 Soluções em T = 0

Agora vamos ao limite de temperatura zero (T = 0). Trataremos com a solução da chamada
fase de recuperação ferromagnética correspondente ao caso ν = 1 e m1 ∼ 1 (que representa-
remos com m). No limite T = 0 ou β → ∞, temos

   
m+κ m−κ
m = γerf √ + (1 − γ) erf √ (8.18)
2αr 2αr
onde, r = (1 − C)−2 , e
( " # " #)
(m + κ)2 (m − κ)2
r
2
C= γ exp − + (1 − γ) exp − (8.19)
παr 2αr 2αr
√ √
Usando convenientemente as variáveis m = y 2αr e κ = x 2αr para reescrever as equa-
ções anteriores, obtém-se

γerf (y + x) + (1 − γ) erf (y − x)
y = √ 2 2 ,
2α + √2π γe−(y+x) + + (1 − γ) e−(y−x)


m = γerf (y + x) + (1 − γ) erf (y − x) . (8.20)

Para γ = 1(e κ = h), recupera-se as equações que correspondem ao caso do reconhecimento


de um padrão armazenado,

erf (y + x)
y = √ 2,
2α + √2π e−(y+x)
m = erf (y + x) . (8.21)

E quando y + x → x, obtêm-se as equações para o caso do reconhecimento de um padrão não


armazenado (ou ortogonal)

erf (x)
y = √ ,
2α + √2π e−x2
m = erf (x) . (8.22)
52 RNED totalmente conectado
Capítulo 9

RNED diluído

9.1 Modelo
Neste resumo, nós procuramos um valor aproximado de κ para uma versão diluída não simétrica
do modelo de Hopfield totalmente conectado. O modelo consiste de um sistema de N spins de
Ising σi = ±1, cujas interações Jij dependem de p padrões armazenados. No modelo de Derrida
o acople sináptico Jij é dado por
p
Cij X µ µ
Jij = ξ ξ , (9.1)
N d µ=1 i j

onde ξiµ (= ±1) é o valor do padrão µ no sitio i e os Cij , que obedecem a seguinte distribuição

P (Cij ) = dδ (Cij − 1) + (1 − d) δ (Cij ) , (9.2)

são variáveis aleatórias e independentes, que representam a diluição e assimetria do sistema. d,


recebe o nome de parâmetro de diluição e define-se como o número total de conexões que não
foram cortadas, normalizado com o número total de conexões de uma rede neuronal totalmente
conectada. Note-se que as interações Jij são não simétricas devido a que para cada par (i, j),
Cij 6= Cji .
Neste modelo, as sinapses são cortadas aleatoriamente, de modo que o número médio de
sinapses por neurônio é N d. A normalização de Jij , eq. (??), foi escolhida por conveniência, de
modo que a magnitude da entrada sináptica total média para um neurônio, em um dos padrões,
seja a unidade, independentemente do valor de d. Isso requer a divisão por um fator d para
compensar os enlaces faltantes. O estudo analítico de redes diluídas, se divide geralmente entre
54 RNED diluído

dois casos extremos. Uma é a rede densa, onde d é de O (1) quando N → ∞. Neste caso, cada
neurônio recebe entradas dos N vizinhos. O outro limite é a rede diluída, onde d é de O (1/N ),
em cujo caso cada neurônio recebe entradas de apenas um número finito de vizinhos. Aqui
vamos discutir apenas o limite denso.

9.1.1 Análise sinal-ruído

Para entender o efeito da diluição, considera-se que em cada sitio i, o campo hi (t) é dado por
N
X
hi (t) = Jij σj (t) (9.3)
j6=i

e os spins se atualizam de acordo com a dinâmica de Glauber a T = 0 (vide asda).


A condição para que um certo estado de rede Si seja dinamicamente estável é que

Si hi > 0. (9.4)

Ou seja, o campo molecular deve ter o mesmo sinal que o valor local do spin. Substituindo ξ ν
por S e com ajuda da equação (9.3), encontra-se

N X p
X Cij µ µ ν
hi = ξi ξj ξj
j6=i µ=1
N d
N N p
X Cij µ µ µ X X Cij µ µ ν
= ξi ξj ξj + ξi ξj ξj
j6=i
N d j6=i µ6=ν
N d
N N p
X Cij µ X X Cij µ µ ν
= ξ + ξ ξ ξ
j6=i
Nd i j6=i µ6=ν
Nd i j j
= S+R

onde a soma sobre µ foi separada em um termo sinal (S) induzido pelo padrão µ = ν e o termo
de ruído (R) µ 6= ν.
Calcula-se a seguir os dois primeiros momentos da variável aleatória R. Para o cálculo de
hRi, usando ξiµ ξjµ ξjν {ξ } = ξiν δµν , obtemos


j

N p
1 XX
hCij i ξiµ ξjµ ξjν {ξ }


hRi =
N d j6=i µ6=ν j

N p
1 XX
= hCij i ξiν δµν
N d j6=i µ6=ν
= 0
9.1 Modelo 55

A seguir se faz uma estimativa do segundo momento, hR2 i,


* N p N X p
+

2 X X Cij µ µ X C ik σ σ ν
R = ξi ξj ξjν × ξi ξk ξk
j6=i µ6=ν
N d k6=i σ6=ν
N d
{ξj, ξk }
p
N X p
N X
1 X X
hCij Cik i ξiµ ξjµ ξjν ξiσ ξkσ ξkν {ξ


= .
N 2 d2 j, ξk }
j6=i µ6=ν k6=i σ6=ν

Usando a seguinte relação



ξ µ ξiσ δµσ

j=k
i
ξiµ ξjµ ξjν ξiσ ξkσ ξkν


{ξj, ξk }
= (9.5)

ξ µ ξ µ ξ ν

hξiσ ξkσ ξkν i{ξk } j 6= k,
i j j {ξj }

reescreve-se a equação para hR2 i, separando o terceiro somatório para os casos em que k = j e
k 6= j. Temos assim
N p p N p N p
1 X X X
2
µ µ ν σ σ ν 1 XX X X
2
hCij Cik i ξiµ ξjµ ξjν ξiσ ξkσ ξkν

R = 2 2
Cij ξi ξj ξj ξi ξj ξj {ξ } , + 2 2
N d j6=i µ6=ν σ6=ν j N d j6=i µ6=ν k6=i, j σ6=ν
N p p N p N p
1 XXX
2 µ σ 1 XX X X
µ µ ν
= C ξ ξ δµσ , + hC ij C ik i ξi ξj ξj {ξ } hξiσ ξkσ ξkν i{ξk }
N 2 d2 j6=i µ6=ν σ6=ν ij i i N 2 d2 j6=i µ6=ν k6=i, j σ6=ν j

p p p p p
N N X
! N X
1 XX
2 µ 2 X X hCij i
µ µ ν X X hCik i σ σ ν
= C ij (ξ i ) + ξi ξj ξj {ξj }
hξi ξk ξk i{ξ
N 2 d2 j6=i µ6=ν j6=i µ6=ν σ6=ν
N d k6=i, j µ6=ν σ6=ν
N d
p p p p p
N N
! N
!
1 XX
2 X X X hCij i X X X hCik i
= C + ξiν δµν ξiν δσν
N 2 d2 j6=i µ6=ν ij j6=i µ6=ν σ6=ν
N d k6=i, j µ6=ν σ6=ν
N d
N p Z  N p
1 XX 2
XX 1
= C ij P (C ij ) dC ij =
N 2 d2 j6=i µ6=ν j6=i µ6=ν
N 2d
(N − 1) (p − 1)
=
N 2d

Assim, a variância do ruído será

(N − 1) (p − 1)
σR2 = R2 − hRi2 =


(9.9)
N 2d

A expressão anterior toma a forma r


α
σR = (9.10)
d
No modelo RNED, o objetivo é zerar o ruído presente no sistema, assim o valor de κC deverá
ser aproximadamente κC = αd .
p
56 RNED diluído

9.2 Simulações Monte Carlo


p N
1 XX µ µ X
H=− ξi ξj Si Sj − κηi Si . (9.11)
N µ=1 i=1
(ij)

Nesta secção estudaremos numericamente o modelo RNED, em três situações; em sistemas


com padrões descorrelacionados, sistemas com padrões correlacionados e sistemas diluídos. O
nosso maior interesse é encontrar o mínimo valor de κ que permita zerar o ruído presente nos
sistemas RNED, no processo de reconhecimento de um padrão armazenado.
Para estudarmos a dependência de κC , com os demais parâmetros do sistema, assim como
o comportamento da magnetização do sistema mχ em função do tempo t, faremos uma análise
do gráfico de m vs κ para diversos valores de γ e α.
O sistema evolui obedecendo a dinâmica de Glauber a temperatura zero, ou seja, de acordo
com
Si (t + ∆t) = sign (hi ) , (9.12)

onde
N
X N
X
hi = Jij Sj + κηi . (9.13)
j6=i i=1

representa o potencial pós-sináptico total do neurônio i e ∆t equivale à atualização de um único


neurônio.
Em cada simulação MC, uma rede de 104 neurônios, começa num estado aleatório S0 que
relaxa após um tempo t → ∞, ao estado S∞ . Já no equilíbrio, calcula-se a magnetização
1
mχ = N
χ · S∞ , na direção do padrão χ. A media desta sobreposição, é feita sobre 103
realizações.
Para o cálculo de κC , serão feitas duas simulações MC. Inicialmente, tomaremos o padrão de
atenuação de ruído η, como um padrão armazenado ξ θ com uma fração 1 − γ de spins girados.
Já no equilíbrio calcula-se a magnetização mθ , na direção do padrão ξ θ . Na segunda simulação,
escolhe-se η como um padrão ortogonal a todos os padrões armazenados e calculamos a mag-
netização nessa direção, m⊥ . Note que esta última magnetização é aproximadamente igual ao
ruído presente no sistema caso η seja uma versão (1 − γ)% ruidosa, do padrão armazenado ξ θ .
Assim, o valor de κC coincidira aproximadamente com o mínimo valor de κ capaz de ma-
ximizar o valor absoluto da diferencia das curvas mθ (κ) e m⊥ (κ). Cabe ressaltar que outros
valores de κ maximizam também a diferença ∆m. Esses valores de κ são tão grandes que,
9.2 Simulações Monte Carlo 57

permitem que o terceiro termo da equação (9.13) seja muito superior aos termos de sinal e
ruído, forçando o alinhamento do sistema com qualquer padrão η associado ao κ, evitando-se o
reconhecimento.

9.2.1 Padrões Descorrelacionados

A seguir estudamos sistemas RNED no qual todos os padrões armazenados estão descorrelaci-
onados.

Cálculo do parâmetro κC

Nas figuras 9.2, 9.3 e 9.4 mostra-se os gráficos mθ (κ), m⊥ (κ) e ∆m (κ), para γ = 0.8, γ = 0.9
e γ = 1.0, respetivamente. Observamos que os valores de κC aumentam a medida que o
parâmetro α cresce de 0.5 a 1.0 e diminuem quando o parâmetro γ aumenta de 0.8 a 1.0. Esse é
um comportamento esperado dado que, quando o número de padrões armazenados α cresce, o
ruído no sistema aumenta e em consequência κC deve crescer. No caso de γ aumentar, o ruído
do sistema diminui, pois o padrão que se tenta recuperar é mais próximo do padrão armazenado
ξ θ , consequentemente κC diminui. Esses comportamentos de κC , são mais difíceis de apreciar
quando γ = 0.8 devido a que esses valores estão muito próximos entre si e o erro numérico não
permite distingui-los.
Na figura 9.1, apresenta-se o gráfico de mθ , m⊥ e ∆m como função de κ, para γ = 0.74
com diferentes valores de α. Esse valor de γ será um limitante, pois não se aprecia um valor
de κC para quase nenhum α. Isto significa que o padrão η pode ser somente 36% diferente do
padrão marcado ξ θ , para obtermos um valor de κC .

Pode-se observar a partir das figuras obtidas, que a escolha κC = α é uma boa primeira
aproximação para κC . Note-se também, que mesmo para α = 1.0, ou seja mesma quantidade
de padrões armazenados que neurônios no sistema, consegue-se uma recuperação otimizada do
padrão armazenado mediante uma escolha adequada de κC .

Comportamento do sistema RNED

O comportamento do modelo RNED com padrões descorrelacionados com γ = 0.9, α = 0.7 e


diferentes valores de κ, submetido a diferentes estímulos η, é mostrado na figura 9.5.
58 RNED diluído

Nos primeiros 50 mil passos MC, com κ = 0, o sistema não consegue reconhecer nenhum
padrão armazenado pois α  0.14. Isso significa que o sistema não ocupa nenhum volume no
espaço de fase. Nos próximos 50 mil passos, ao fazermos η = ξ θ com γ = 0.3, ou seja com
40% de spins girados, o sistema consegue reconhecer o padrão armazenado ξ θ . Note-se que,
apos o relaxamento, para κ suficientemente grande, temos

mθ ' 2γ − 1, (9.14)

para o padrão θ e uma sobreposição quase zero para os outros p − 1 padrões. Já nos últimos 50
mil passos MC, ao fazermos η = ξ ν com γ = 1.0 (ν 6= θ), o sistema recuperara o padrão ξ ν
em detrimento dos outros padrões armazenados. É conhecido que o espaço de fase no modelo
de Hopfield apresenta uma estrutura de vales, a qual some uma vez ultrapassado o valor de
αC = 0.14. Como no sistema RNED o parâmetro de carga α > αC , não teremos dita estrutura.
Mas, assim que introduzimos um campo externo, associado com o padrão η, gera-se um vale
na direção desse padrão, beneficiando o seu reconhecimento, porem assim que o campo cessar,
esse vale desaparece.

Comparação dos resultados teóricos e numéricos

Na figura 9.6, comparamos as curvas mθ (κ), m⊥ (κ) e ∆m (κ), resultantes das simulações
MC com as curvas mTθ (κ), mT⊥ (κ) e ∆mT (κ) obtidas ao resolver numericamente as equações
acopladas previstas pela teoria de réplicas a T = 0 da secção 8.2.4, para diferentes valores de
α e γ. No geral, observa-se uma boa concordância entre os resultados das simulações MC e da
solução numérica das equações de campo médio.
Nota-se que, m⊥ sempre tomará o valor de 1 para qualquer η, caso κ seja muito grande.
Nesses casos, temos uma predominância do termo de campo externo sobre os termos de sinal e
ruído mas não um reconhecimento, motivo pelo qual esses κ’s não são de interesse.

Capacidade de armazenamento no modelo RNED

Devido a que o sistema RNED conta com um termo que atenua o ruído presente no sistema,
surge a pergunta: quanto ruído é capaz de ser absorvido por este termo? ou de forma equi-
valente; qual é o maior parâmetro de carga α, suportado pelo sistema? O valor de αC nesse
sistema será obtido quando a quantidade de padrões armazenados gerem um ruído tao grande,
9.2 Simulações Monte Carlo 59

que o termo de atenuação não seja capaz de compensa-lo. Fisicamente, esta situação se dará
quando as curvas mθ (κ) e m⊥ (κ) forem indistinguíveis, ou seja, quando não existir mais um κc
para o sistema. Na figura 9.7, apresentam-se mθ , m⊥ e ∆m como função de κ, para γ = 1.0 e
α = 40. Observamos que as curvas estão praticamente se superpondo entre si, portanto pode-se
concluir que o valor de αC estará próximo de 40.
Nas seguintes seções, devido à impossibilidade de encontrarmos soluções analíticas para
sistemas RNED diluídos ou com padrões correlacionados, faremos somente um análise numé-
rica.

9.2.2 Padrões Espacialmente Correlacionados

A seguir estudamos numericamente sistemas RNED com padrões armazenados espacialmente


correlacionados, considerando η = ξ θ com γ = 1.0.
Nas figuras 9.8 e 9.9 apresentam-se sistemas com um padrão correlacionado em 40% e 80%
com o padrão armazenado ξ θ , respetivamente. Observamos que se o parâmetro de correlação
Corr aumenta, o valor de κc diminui, para um dado α. Isso deve-se a que, quando temos um
sistema com padrões espacialmente correlacionados, o tamanho do vale gerado ao redor de ξ θ
aumenta conforme Corr cresce, ou seja o ruido no reconhecimento de ξ θ decresce, precisando-
se de um κc menor para zerá-lo. Outra consequência desse aumento de tamanho, é que, para
um mesmo α, os valores de κc para sistemas correlacionados são inferiores aos respectivos κc
para sistemas descorrelacionados com γ = 1 (vide fig. 9.4).
É possível apreciar na figura 9.10, que devido à presença de 4 padrões correlacionados com
ξ θ em 60%, 70%, 80% e 90%, os valores de κc serão muito pequenos devido a que a bacia de
atração em ξ θ é muito grande.

9.2.3 Padrões Diluídos

A seguir, estuda-se numericamente o sistema RNED com diluição débil. Neste caso, estuda-se
a dependência de κc com o parâmetro de diluição d para um α fixo, considerando γ = 1.0 e
ξ θ um padrão armazenado. Nas figuras 9.11, 9.12 e 9.13 apresentam-se os resultados para esse
sistema diluído. Observa-se que, para α fixo, o valor de κc aumenta a medida que o parâmetro de
diluição d, ou seja, as conexões sinápticas, diminuem. É de se esperar este comportamento, pois
60 RNED diluído

um número de conexões sinápticas menor aumenta o ruído do sistema, dificultando a capacidade


de se reconhecer um padrão armazenado.

Os valores de κc obtidos na simulação MC são próximos de κC = d
como predito pela
análise sinal-ruído do sistema diluído (vide secção 9.1.1).
9.2 Simulações Monte Carlo 61


(a)
0.8
0.6
0.4
0.2
κc=0.50
0
0 0.5 1 1.5 2 2.5 κ

(b)
0.8
0.6
0.4
0.2
0
0 0.5 1 1.5 2 2.5 κ

(c)
0.8
0.6
0.4
0.2
0
0 0.5 1 1.5 2 2.5 κ

(d)
0.8
0.6
0.4
0.2
0
0 0.5 1 1.5 2 2.5 κ
mθ m⊥ ∆m

Figura 9.1: Magnetizações mθ (κ), m⊥ (κ) e ∆m (κ) para sistemas RNED com padrões arma-
zenados descorrelacionados e γ = 0.74. A figura mostra como o parâmetro de carga influencia
no aparecimento de κC . (a) α = 0.5. (b) α = 0.7. (c) α = 0.9. (d) α = 1.0.
62 RNED diluído


(a)
0.8
0.6
0.4
0.2 κc=0.70
0
0 0.5 1 1.5 2 2.5 κ

(b)
0.8
0.6
0.4
0.2
κc=0.71
0
0 0.5 1 1.5 2 2.5 κ

(c)
0.8
0.6
0.4
0.2
κc=0.71
0
0 0.5 1 1.5 2 2.5 κ

(d)
0.8
0.6
0.4
0.2
κc=0.71
0
0 0.5 1 1.5 2 2.5 κ
mθ m⊥ ∆m

Figura 9.2: Magnetizações mθ , m⊥ e ∆m como uma função de κ, obtidas de simulações Monte


Carlo, para sistemas RNED com padrões descorrelacionados e γ = 0.8. Observa-se que o
tamanho da cúspide em κC é influenciada pelo parâmetro de carga. (a) α = 0.5. (b) α = 0.7.
(c) α = 0.9. (d) α = 1.0.
9.2 Simulações Monte Carlo 63


(a)
0.8
0.6
0.4 κc=0.70
0.2
0
0 0.5 1 1.5 2 2.5 κ

(b)
0.8
0.6
0.4
κc=0.85
0.2
0
0 0.5 1 1.5 2 2.5 κ

(c)
0.8
0.6
0.4
κc=0.90
0.2
0
0 0.5 1 1.5 2 2.5 κ

(d)
0.8
0.6
0.4
0.2 κc=0.95
0
0 0.5 1 1.5 2 2.5 κ
mθ m⊥ ∆m

Figura 9.3: Magnetizações mθ (κ), m⊥ (κ) e ∆m (κ) para sistemas RNED com padrões arma-
zenados descorrelacionados e γ = 0.9. A figura mostra que κC cresce conforme o parâmetro
de carga aumenta. (a) α = 0.5. (b) α = 0.7. (c) α = 0.9. (d) α = 1.0.
64 RNED diluído


(a)
0.8
0.6 κc=0.70
0.4
0.2
0
0 0.5 1 1.5 2 2.5 κ

(b)
0.8
0.6
κc=0.85
0.4
0.2
0
0 0.5 1 1.5 2 2.5 κ

(c)
0.8
0.6
0.4 κc=0.90

0.2
0
0 0.5 1 1.5 2 2.5 κ

(d)
0.8
0.6
0.4 κc=0.95
0.2
0
0 0.5 1 1.5 2 2.5 κ
mθ m⊥ ∆m

Figura 9.4: Magnetizações mθ (κ), m⊥ (κ) e ∆m (κ) para sistemas RNED com padrões arma-

zenados descorrelacionados e γ = 0.9. A figura mostra que κC é aproximadamente igual a α.
(a) α = 0.5. (b) α = 0.7. (c) α = 0.9. (d) α = 1.0.
9.2 Simulações Monte Carlo 65


(a)
0.8
0.6
0.4
κ = 0.0 κ = 0.2 κ = 0.2
0.2
0
0 25 50 75 100 125 κ (x103)

(b)
0.8
0.6
0.4
κ = 0.0 κ = 0.85 κ = 0.85
0.2
0
0 25 50 75 100 125 κ (x103)

(c)
0.8
0.6
0.4
κ = 0.0 κ = 1.5 κ = 1.5
0.2
0
0 25 50 75 100 125 κ (x103)

(d)
0.8
0.6
0.4
κ = 0.0 κ = 2.5 κ = 2.5
0.2
0
0 25 50 75 100 125 κ (x103)
mθ mν

Figura 9.5: Evolução temporal das magnetizações mθ e mν de um sistema RNED com padrões
armazenados descorrelacionados, com γ = 0.9, α = 0.7, para quatro regiões presentes na fig.
9.3 (b): (a) κ = 0.2; (b) κ = 0.85; (c) κ = 1.5; (d) κ = 2.5. Para κ = 0, nos primeiros 50 mil
passos MC, tanto mθ com mν são zero. Nos próximos 50 mil passos, considerando η = ξ θ com
γ = 0.9, observa-se 0 ≤ mθ ≤ 2γ − 1 e mν = 0. Nos últimos 50 mil passos MC, para η = ξ ν
com γ = 1.0, temos 0 ≤ mν ≤ 1 e mθ = 0.
66 RNED diluído


(a)
0.8
0.6
0.4
0.2
0
0 0.5 1 1.5 2 2.5 κ

(b)
0.8
0.6
0.4
0.2
0
0 0.5 1 1.5 2 2.5 κ

(c)
0.8
0.6
0.4
0.2
0
0 0.5 1 1.5 2 2.5 κ

(d)
0.8
0.6
0.4
0.2
0
0 0.5 1 1.5 2 2.5 κ
mθ m⊥ ∆m mTθ mT⊥ ∆m
T

Figura 9.6: Comparação das magnetizações mθ (κ), m⊥ (κ) em ∆m (κ) obtidas mediante si-
mulação Monte Carlo com as magnetizações mTθ (κ), mT⊥ (κ) e ∆mT (κ) previstas pela teoria
de réplica para quatro casos diferentes: (a) α = 1.0 e γ = 0.74; (b) α = 0.9 e γ = 0.8; (c)
α = 0.7 e γ = 0.9; (d) α = 0.5 e γ = 1.0.
9.2 Simulações Monte Carlo 67

0.8 α=40

0.6

0.4

m⊥
0.2
∆m
κc=4.80
0
0 2 4 6 8 10 κ

Figura 9.7: Magnetizações mθ (κ), m⊥ (κ) e ∆m (κ) para sistemas RNED com padrões arma-
zenados descorrelacionado, γ = 1.0 e α = 40.0. Observamos uma grande semelhança entre as
curvas mθ e m⊥ , o qual indica que αc ≈ 40.
68 RNED diluído


(a)
0.8
0.6 κc=0.60
0.4
0.2
0
0 0.5 1 1.5 2 2.5 κ

(b)
0.8
0.6
κc=0.75
0.4
0.2
0
0 0.5 1 1.5 2 2.5 κ

(c)
0.8
0.6
0.4 κc=0.85

0.2
0
0 0.5 1 1.5 2 2.5 κ

(d)
0.8
0.6
0.4 κc=0.95
0.2
0
0 0.5 1 1.5 2 2.5 κ
mθ m⊥ ∆m

Figura 9.8: Magnetizações mθ , m⊥ e ∆m como uma função de κ, para sistemas RNED com
um padrão 40% correlacionado com ξ θ . Observamos que κ cresce com o parâmetro de carga α.
(a) α = 0.5. (b) α = 0.7. (c) α = 0.9. (d) α = 1.0.
9.2 Simulações Monte Carlo 69


(a)
0.8
κc=0.35
0.6
0.4
0.2
0
0 0.5 1 1.5 2 2.5 κ

(b)
0.8
0.6 κc=0.45
0.4
0.2
0
0 0.5 1 1.5 2 2.5 κ

(c)
0.8
0.6 κc=0.60
0.4
0.2
0
0 0.5 1 1.5 2 2.5 κ

(d)
0.8
0.6 κc=0.70
0.4
0.2
0
0 0.5 1 1.5 2 2.5 κ
mθ m⊥ ∆m

Figura 9.9: Magnetizações mθ (κ), m⊥ (κ) e ∆m (κ) para sistemas RNED com um padrão
espacialmente correlacionado em 80% com ξ θ . A figura mostra que κC cresce conforme o
parâmetro de carga aumenta e que mθ → 1.0 mais rapidamente que na fig. 9.8. (a) α = 0.5. (b)
α = 0.7. (c) α = 0.9. (d) α = 1.0.
70 RNED diluído


κc=0.19
0.8 (a)
0.6
0.4
0.2
0
0 0.5 1 1.5 2 2.5 κ

κc=0.20
0.8 (b)
0.6
0.4
0.2
0
0 0.5 1 1.5 2 2.5 κ

0.8 κc=0.20 (c)
0.6
0.4
0.2
0
0 0.5 1 1.5 2 2.5 κ

0.8 κc=0.21 (d)
0.6
0.4
0.2
0
0 0.5 1 1.5 2 2.5 κ
mθ m⊥ ∆m

Figura 9.10: Magnetizações mθ (κ), m⊥ (κ) e ∆m (κ) para sistemas RNED com quatro padrões
correlacionados em 60%, 70%, 80% e 90% com ξ θ . Observa-se que é suficiente κC ≈ 0.2 para
recuperar o padrão ξ θ . (a) α = 0.5. (b) α = 0.7. (c) α = 0.9. (d) α = 1.0.
9.2 Simulações Monte Carlo 71


(a)
0.8
0.6
0.4 κc=0.95
0.2
0
0 0.5 1 1.5 2 2.5 κ

(b)
0.8
0.6
κc=0.75
0.4
0.2
0
0 0.5 1 1.5 2 2.5 κ

(c)
0.8
0.6 κc=0.65
0.4
0.2
0
0 0.5 1 1.5 2 2.5 κ

(d)
0.8
0.6 κc=0.65
0.4
0.2
0
0 0.5 1 1.5 2 2.5 κ
mθ m⊥ ∆m

Figura 9.11: Magnetizações mθ , m⊥ e ∆m como uma função de κ, para sistemas RNED diluí-
dos com α = 0.5. Observa-se que κC aumenta conforme o parâmetro de diluição d cresce. (a)
d = 0.3. (b) d = 0.6. (c) d = 0.9. (d) d = 1.0.
72 RNED diluído


(a)
0.8
0.6
0.4
κc=1.15
0.2
0
0 0.5 1 1.5 2 2.5 κ

(b)
0.8
0.6
0.4 κc=0.90
0.2
0
0 0.5 1 1.5 2 2.5 κ

(c)
0.8
0.6
κc=0.80
0.4
0.2
0
0 0.5 1 1.5 2 2.5 κ

(d)
0.8
0.6
κc=0.80
0.4
0.2
0
0 0.5 1 1.5 2 2.5 κ
mθ m⊥ ∆m

Figura 9.12: Magnetizações mθ (κ), m⊥ (κ) e ∆m (κ) para sistemas RNED diluídos com α =
0.7. A figura mostra uma dependência de κC com o parâmetro de diluição d. (a) d = 0.3. (b)
d = 0.6. (c) d = 0.9. (d) d = 1.0.
9.2 Simulações Monte Carlo 73


(a)
0.8
0.6
0.4
κc=1.25
0.2
0
0 0.5 1 1.5 2 2.5 κ

(b)
0.8
0.6
0.4 κc=1.05
0.2
0
0 0.5 1 1.5 2 2.5 κ

(c)
0.8
0.6
0.4 κc=1.00
0.2
0
0 0.5 1 1.5 2 2.5 κ

(d)
0.8
0.6
0.4 κc=0.95
0.2
0
0 0.5 1 1.5 2 2.5 κ
mθ m⊥ ∆m

Figura 9.13: Magnetizações mθ , m⊥ e ∆m como uma função de κ, para sistemas RNED diluí-
p
dos com α = 1.0. Observa-se que os valores de κC são próximos de α/d, como previsto em
9.1.1. (a) d = 0.3. (b) d = 0.6. (c) d = 0.9. (d) d = 1.0.
74 RNED diluído
Apêndice A

Estudo analítico do modelo RNED

A.1 Teoria do Campo médio


Usa-se o método das réplicas, que se vale da identidade matemática
xn − 1
ln (x) = lim (A.1)
n→0 n
para efetuar a media configuracional do logaritmo da função de partição

1 h
n i
ln Z(β, h) {ξ} = lim Z(β, h) {ξ} − 1 (A.2)
n→0 n

a energia livre por neurônio será então


1 1

f (β) = − lim ln Z(β, h) {ξ} ,
β N →∞ N
1 1 h
n i
= − lim lim Z(β, h) {ξ} − 1 .
β n→0 N →∞ nN
76
Lembrando, que se considera a comutatividade nos limites n vezes, a qual é o produto de n funções de partição, correspondentes a n sistemas
independentes (réplicas idênticas)
 
n n
 Tr e−βH a  ,
Y Y
Zn = Z({S a }) =
i
a=1 a=1 {Sia }
n
!
Y a
 Pn a

= Tr e−βH = Tr e−β a=1 H . (A.3)
{Sia } a=1 {Sia }
A somatória na exponencia da equação anterior, representa a energia de um sistema de n · N spins. O traço é feito sobre o conjunto total de
variáveis de spin.
O hamiltoniano H a , num sistema RNED é dado por:
p s N N
a 1 XX µ µ a a X ν X ν a X
H = − ξi ξj Si Sj − h ξi Si − κηi Sia ,
N µ=1 ν=1 i=1 i=1
(ij)
 
onde ηi obedece a seguinte distribuição de probabilidadeP (ηi ) = γδ ηi − ξiθ + (1 − γ) δ ηi + ξiθ .

Estudo analítico do modelo RNED


Usando a identidade !2
p
N X p N
X µ µ 1X X µ 1
Si Sj = Si − NP (A.4)
µ=1
2 µ=1 i=1
2
(ij)
a
reescrevemos H , obtendo: !2
p N s N N
a 1 X X µ a 1 X
ν
X
ν a
X
H =− ξ S + p− h ξi Si − κηi Sia . (A.5)
2N µ=1 i=1 i i 2 ν=1 i=1 i=1

Substituindo a equação anterior na função de partição replicada Z n , temos:


  !2 
n p N s N N
Y β X X 1 X X X
Z n = Tr  exp  ξiµ Sia − βp + β hν ξiν Sia + β κηi Sia  . (A.6)
S
a=1
2N µ=1 i=1
2 ν=1 i=1 i=1
A.1 Teoria do Campo médio
1 µ a 1
ηi Sia , para melhorar a manipulação, obtendo-se:
P P
Fazemos Cµa = N i ξi Si e fa = N i

p
" n s
!#
Y βN X 2 1 X
Zn = Tr exp Cµa − βp + βN hν Cνa + βN κfa ,
S
a=1
2 µ=1
2 ν=1
p
" n s
!#
Y βN X X
= e−βpn/2 Tr exp 2
Cµa + βN hν Cνa + βN κfa ,
S
a=1
2 µ=1 ν=1
p
" n   s
!!#
Y Y βN X
= e−βpn/2 Tr exp 2
Cµa · exp βN hν Cνa + βN κfa .
S
a=1 µ=1
2 ν=1

Para desacoplar o termo quadrático usa-se a identidade de Hubbard-Stratonovitch,


Z
λa2 dx 2
e = √ e−x /2+ 2λax , (A.7)

obtendo-se:
p Z
" n
! s
!!#
Y Y +∞
dyaµ (yaµ )2 p X
Z n = e−βpn/2 Tr √ exp − + βN yaµ Cµa · exp βN hν Cνa + βN κfa
S
a=1 µ=1 −∞ 2π 2 ν=1
p p p
" n Z +∞ s
!#
Y Y dy µ 1X µ 2 p X X
= e−βpn/2 Tr a
√ exp − (ya ) + βN µ
ya Cµa + βN hν Cνa + βN κfa .
S
a=1 −∞ µ=1
2π 2 µ=1 µ=1 ν=1

Introduzindo na integral o produtório das réplicas, temos

p p p
"Z n Y n n X n X s n
!#
+∞ Y
dyaµ 1 XX µ 2 p X X X
Z n = e−βpn/2 Tr √ exp − (ya ) + βN yaµ Cµa + βN hν Cνa + βN κ fa . (A.8)
S −∞ a=1 µ=1
2π 2 a=1 µ=1 a=1 µ=1 a=1 ν=1 a=1

77
É fácil fazer a media de Z n no desordem, pois os expoentes da função de partição são funções lineares das variáveis aleatórias ξiµ , µ =
78
s + 1, . . . , p. Então, tomando a media na equação anterior, obtemos

p p p
** "Z n Y n n
+∞ Y
−βpn/2 dy µ 1 X X µ 2 X X p 
n
hZ i = e Tr √ a exp − (ya ) + βN yaµ + βN hν Cµa
S −∞ a=1 µ=1
2π 2 a=1 µ=1 a=1 µ=1
n X
s n
!#+ +
X X
+βN hν Cνa + βN κ fa
a=1 ν=1 a=1 η ξ

Z p p
!* p
!+
 +∞ Yn Y µ n n
dy 1 X X 2
p X X
= e−βpn/2 Tr  √ a exp − (yaµ ) exp βN yaµ Cµa

S  −∞
a=1 µ=1
2π 2 a=1 µ=s+1 a=1 µ=s+1
 ξµ
| {z }
L1
** n s n X
s n X
s n
!+ + 
1 XX ν 2
p X
ν
X
ν
X
· exp − (ya ) + βN ya Cνa + βN h Cνa + βN κ fa  (A.9)
2 a=1 ν=1 a=1 ν=1 a=1 ν=1 a=1 η ξν

Calculando separadamente L1 :

Estudo analítico do modelo RNED


p p
* " n
#+ * " n
!#+
1/2
X X 1/2
X X 1 X µ a
L1 = exp (βN ) yaµ Cµa = exp (βN ) yaµ ξ S ,
a=1 µ=s+1 a=1 µ=s+1
N i i i
ξµ ξµ
p p
* N
" n
1/2 X #+ N
* " n
1/2 X #+
Y Y β Y Y β
= exp yaµ Sia ξiµ = exp yaµ Sia ξiµ ,
µ=s+1 i=1
N a=1 µ=s+1 i=1
N a=1
ξµ ξµ
p p
N Z
r n n
! ! N
r
Y Y β X β X µ a Y Y
= dξiµ P (ξiµ ) exp = cosh yaµ Sia ξiµ
y S
µ=s+1 i=1 a=1
N
µ=s+1 i=1
N a=1 a i
p
" N
r n
!# " p N r n
!!#
Y Y β X µ a X X β X µ a
= exp ln cosh ya Si = exp ln cosh ya Si
µ=s+1 i=1
N a=1 µ=s+1 i=1
N a=1
A.1 Teoria do Campo médio
Quando x → 0, podemos fazer a aproximação ln (cosh (x)) w ln 1 + 21 x2 w 12 x2 .Como, na nossa expressão N → ∞, então:


 !2 
p p
N n N n X n
!
X X β X X X β X
L1 = exp  yaµ Sia  = exp yaµ ybµ Sia Sib . (A.10)
µ=s+1 i=1
2N a=1 µ=s+1 i=1
2N a=1 b=1

Substituindo em (A.9), o resultado obtido na equação (A.10), temos:

p p p
"Z n Y n
! N n X n
!
+∞ Y
dyaµ 1X X X X β X
hZ n i = e−βpn/2 Tr √ exp − (yaµ )2 exp yaµ ybµ Sia Sib
S −∞ a=1 µ=1 2π 2 a=1 µ=s+1 µ=s+1 i=1
2N a=1 b=1
** n X s n X s  n
!+ + 
1 X X  X
(yaν )2 +
p
· exp − βN yaν + βN hν Cνa + βN κ fa 
2 a=1 ν=1 a=1 ν=1 a=1 η ξν

Z +∞ n p n p p N X n X n
!
Y Y dy µ 1 X X β X X
= e−βpn/2 Tr  √ a exp − (yaµ )2 + yaµ ybµ Sia Sib

S
 −∞ a=1 µ=1 2π
 2 a=1 µ=s+1
2N µ=s+1 i=1 a=1 b=1
| {z }
L2
** n s n X
s  n
!+ + 
1 XX ν 2
X p ν ν
 X
· exp − (ya ) + βN ya + βN h Cνa + βN κ fa  (A.11)
2 a=1 ν=1 a=1 ν=1 a=1 η ξν

79
onde h. . .iξν denota a media aleatória dos s padrões condensados {ξiν }. Fazendo o cálculo da integral dos p − s termos quadráticos, denotado
80
por L2 , separadamente, temos:
p p p
n
Z +∞ Y n N X n Xn
!
µ
Y dy 1 X X β X X
L2 = √ a exp − (yaµ )2 + yaµ ybµ Sia Sib ,
−∞ a=1 µ=s+1 2π 2 a=1 µ=s+1 2N µ=s+1 i=1 a=1 b=1
p p p
n
Z +∞ Y " n N n n
!#
Y dyaµ X 1X X µ 2 β XXX µ µ a b
= √ exp − (ya ) + ya yb Si Si ,
−∞ a=1 µ=s+1 2π µ=s+1
2 a=1 µ=s+1
2N i=1 a=1 b=1
p
n
Z +∞ Y " p n n n n N
!!#
Y dy µ X 1 XX µ µ 1 XX µ µ β X a b
a
= √ exp − y y δab + y y S S ,
−∞ a=1 µ=s+1 2π µ=s+1
2 a=1 a=1 a b 2 a=1 b=1 a b N i=1 i i
  
p  p 
n n X n N
!
+∞ Y
dyaµ
Z Y  X  1X β X a b
yaµ ybµ

= = √ exp  − δab − S S  ,
−∞ a=1 µ=s+1
2π µ=s+1  2 a=1 a=1
  N i=1 i i 

| {z }
Kab
p p
n
" n n
!#
+∞ Y
dy µ
Z Y X 1 XX µ µ
= √ a exp − y y Kab .
−∞ a=1 µ=s+1
2π µ=s+1
2 a=1 a=1 a b

 → − →
− →

Estudo analítico do modelo RNED


R +∞
Observação 1: Integração da exponencial de uma forma quadrática de N variáveis −∞
exp − 12 X t · C X d X onde C é uma matriz

− →

simétrica definida positiva e X t = (X1 , X2 , . . . , XN ) é a transposta do vetor X .

− →

Seja U a matriz ortogonal que diagonaliza C, ou seja U −1 CU = D. Onde D é a matriz diagonal e U −1 X = Y . Então:
+∞
(2π)N/2
  Z +∞   Z +∞  
1→−t →
− →
− 1→−t −1 →
− →
− 1→−t →
− →

Z
−1
exp − X · C X d X = exp − X · U U CU U X dX = exp − Y · D Y d Y =
−∞ 2 −∞ 2 −∞ 2 (det C)1/2
(A.12)


como D é diagonal, a integral pode-se calcular como uma integral gaussiana de uma única variável para cada componente de Y
separadamente. Os elementos d1 , d2 , . . . , dN da diagonal de D (valores próprios de C). Lembre-se que det C = N
Q
j=1 dj
A.1 Teoria do Campo médio
Usando a observação anterior, a expressão de L2 , fica

p n n n
!
+∞ Y
dyaµ
Z
Y 1 XX µ µ
L2 = √ exp − y y Kab ,
µ=s+1 −∞ a=1
2π 2 a=1 a=1 a b
" Z +∞ Y n n X n
!#p−s
1 X
= (2π)−n/2 dyaµ exp − yaµ ybµ Kab ,
−∞ a=1 2 a=1 a=1
 Z +∞  p−s
−n/2 →
− µ 1 →
− µ T →
− µ
= (2π) d y a exp − ( y a ) Kab y b ,
−∞ 2
" #p−s
n/2
−n/2 (2π)
= (2π) 1/2
= (det K)−(p−s)/2 .
(det K)

Para p grande, p − s ≈ p
 p 
L2 = (det K)−p/2 = exp − Tr (ln K) .
2

Pn
Observação 2: No cálculo anterior, denota-se de forma explicita Tr (ln K) = i=1 ln (di ) onde di são os valores próprios de K.

!
Y X
(det K)−p/2 = (di )−p/2 = exp ln (di )−p/2 ,
i i
!
pX  p 
= exp − ln (di ) = exp − Tr (ln D) ,
2 2
 p i   p 
= exp − Tr U −1 U · ln D = exp − Tr U · ln D · U −1 ,

 p2  2
= exp − Tr (ln K) .
2

81
82
Usando propriedade da delta de Dirac (multidimensional)

 p 
L2 = exp − Tr (ln K) ,
2 !
Z Y  p N
 Y 1 X a b
= dqab exp − Tr [ln ((1 − β) I − βQ)] · δ qab − S S .
a6=b
2 a6=b
N i=1 i i

Onde fizemos K = (1 − β) I − βQ, I denota a matriz unitária n dimensional. Um novo conjunto de variáveis auxiliares Q = [qab ] é
introduzido, e define-se como:

 1 N Sia Sib
P
a 6= b

N i=1
qab = (A.13)
0

a=b

Estudo analítico do modelo RNED


Observação 3: Função delta de Dirac multidimensional
Z Y
f (~x) δ n (~x − ~x0 ) d~x = f (~x0 ) , onde δ n (~x − ~x0 ) = δ (xi − xi0 )
i

Além disso, ao introduzir uma representação formal da integral de Fourier da função delta:

Z +i∞
1
δ (x − x0 ) = exp (−r (x − x0 )) dr
2πi −i∞
A.1 Teoria do Campo médio
Para n (n − 1) temos {qab }, e despreciando o fator multiplicante, encontra-se:

Z Y N
!!
h p i  p  YZ 1 X a b
exp − Tr (ln K) ∝ dqab exp − Tr [ln ((1 − β) I − βQ)] · drab exp −rab qab − S S ,
2 a6=b
2 a6=b
N i=1 i i
Z Y N
!!
 p  Z Y X 1 X a b
∝ dqab exp − Tr [ln ((1 − β) I − βQ)] · drab exp − rab qab − Si Si .
a6=b
2 a6=b a6=b
N i=1
Z Y Z Y " N
!#
p X 1 X
∝ drab dqab exp − Tr [ln ((1 − β) I − βQ)] − rab qab − Sia Sib
a6=b a6=b
2 a6=b
N i=1

N αβ 2
Reescalando os rab → 2
rab por conveniência, obtemos

" N
!#
N αβ 2 X
h p Z Y Z Y
i p 1 X a b
exp − Tr (ln K) ∝ drab dqab exp − Tr [ln ((1 − β) I − βQ)] − rab qab − S S . (A.14)
2 a6=b a6=b
2 2 a6=b
N i=1 i i

Substituindo (A.14) na equação (A.11), obtêm-se

"Z n Y
s N
!!!
+∞ Y
dyaν 2
Z Y Z Y
p N αβ X 1 X
hZ n i ∝ e−βαN n/2 Tr √ drab dqab exp − Tr [ln ((1 − β) I − βQ)] − rab qab − Sia Sib
S −∞ a=1 ν=1 2π a6=b a6=b
2 2 a6=b N i=1
** n X s n X s  n
!+ + 
1 X X  X
(yaν )2 +
p
· exp − βN yaν + βN hν Cνa + βN κ fa 
2 a=1 ν=1

83
a=1 ν=1 a=1 η ξν

84
fazendo os reescalamentos y µ → βN y µ , para garantir a extensividade da energia livre
"Z n Ys N
!!!
+∞ Y
dyaν N αβ 2 X
Z Y Z Y
n −βαN n/2 p 1 X a b
hZ i ∝ e Tr √ drab dqab exp − Tr [ln ((1 − β) I − βQ)] − rab qab − S S
S −∞ a=1 ν=1 2π a6=b a6=b
2 2 a6=b N i=1 i i
** n X s n X s n
!+ + 
βN X X X
· exp − (y ν )2 + βN (yaν + hν ) Cνa + βN κ fa 
2 a=1 ν=1 a a=1 ν=1 a=1 η ξν
Z +∞ Y n Ys n s
!!
dy ν
Z Z
Y Y α αβ X 1 XX ν 2
∝ e−βαN n/2 √a drab dqab exp N β − Tr [ln ((1 − β) I − βQ)] − rab qab − (ya )
−∞ a=1 ν=1 2π a6=b a6=b
2β 2 a6=b
2 a=1 ν=1
** " N n n s n
!#+ +
X αβ 2 X XX X
a b ν ν ν a a
· Tr exp rab Si Si + β (ya + h ) ξi Si + βκ ηi Si .
S
i=1
2 a6=b a=1 ν=1 a=1 η ξν
| {z }
L3

A última linha da equação anterior pode ser representada como uma função dos padrões aleatórios, {ξiν }, e as n réplicas dos spins binomiais
{Sia }, e pode-se escrever de forma geral como:
** " N
#+ + ** N + +

Estudo analítico do modelo RNED


X Y
L3 = Tr exp F {ξiν , Sia } = Tr [exp F {ξiν , S a }]
S Sa
i=1 {ηi } i=1 η
{ξiν } ξν
** N  !+ +
1 X
= exp N ln Tr [exp F {ξiν , S a }] , (A.15)
N i=1 Sa
η ξν

onde Tr indica o traço sobre n spins binomiais replicados {S a (= ±1)}. Note-se que s  N ( com N → ∞) garante que L3 tenha a
Sa

propriedade de automediancia e seja representado geralmente como:


N
1 X 1 X D E
G (ξiν ) =⇒ s G (ξ ν ) ≡ hG (ξ ν )iη ,
N i=1 2 ξν =±1 ξν
A.2 Soluções da simetria de réplica
onde consegue-se eliminar a dependência de i da expressão (A.15), ficando como
*   +
L3 = exp N ln Tr [exp F {ξ ν , S a }] , (A.16)
Sa
η ξν
D E
Nota-se que não precisamos da media h. . .iη em (A.15), porque a automediança da soma em i na equação (A.16) já realizou toda a média
ξν
sobre os padrões.
D E
Agora, pode-se escrever toda a expressão para hZ n iη como uma integral da exponencial de algo proporcional a N :
ξν
D E Z Y Z Y
n ν
hZ iη ∝ dya dqab drab exp (−N βf {y, q, r}) (A.17)
ξν
νa a6=b

onde
n s
αn 1 X X ν 2 α αβ X 1D E
f {y, q, r} = + (ya ) + Tr [ln ((1 − β) I − βQ)] + rab qab − hln Z0 iη (A.18)
2 2 a=1 ν=1 2β 2 a6=b β ξν

e " !#
n n X s n
αβ 2 X a b
X
ν ν ν a
X
Z0 = Tr exp rab S S + β (ya + h ) ξ S + βκ ηS a (A.19)
Sa 2 a6=b a=1 ν=1 a=1

A.2 Soluções da simetria de réplica


Como uma primeira aproximação, permite-se só um pequeno subconjunto dos parâmetros variacionais (yaν , qab , rab ) em que a todas as réplicas
ou pares de réplicas, respectivamente, se lhes atribui os mesmos valores dos parâmetros, a qual é chamada de “simetria de réplica” (RS).

yiν = y ν , (A.20)

qab = q, a 6= b (A.21)

85
rab = r, a 6= b. (A.22)
86
Então f será minimizado em relação a estes três parâmetros apenas, além disso, Tr [ln ((1 − β) I − βQ)] é fácil de calcular pois a matriz
(1 − β) I − βQ tem vetores próprios simples; um vetor com todas as componentes iguais e n − 1 vetores cujas componentes somam zero. A
densidade de energia livre pode ser representada usando os anteriores parâmetros de ordem RS, depois do apropriado processo de limite, na
equação A.18

s
!
f α 1 X ν 2 α αβ 1 D E
fRS = lim = + lim n (y ) + Tr [ln ((1 − β) I − βQ)] + rq (n − 1) n − hln Z0 iη
n→0 n 2 n→0 2n ν=1 2βn 2n βn ξν
s  
α 1 X ν 2 αβ α 1 1 D E
= + (y ) − rq + lim Tr [ln ((1 − β) I − βQ)] − lim hln Z0 iη
2 2 ν=1 2 2β n→0 n n→0 βn ξν
s  
α 1 X ν 2 αβ α βq 1 D E
= + (y ) − rq + ln (1 − β + βq) − − lim hln Z0 iη .
2 2 ν=1 2 2β 1 − β + βq n→0 βn ξν

Focando em Z0 , temos

Estudo analítico do modelo RNED


" n n X s n
!#
αβ 2 r X a b X X
Z0 = Tr exp S S +β (y ν + hν ) ξ ν S a + βκ ηS a
Sa 2 a6=b a=1 ν=1 a=1
    
n
! 2 n X s n
2
αβ r  X X X
= Tr exp  S a − n + β (y ν + hν ) ξ ν S a + βκ ηS a 
Sa 2 a=1 a=1 ν=1 a=1
  
n
! 2 n X s n
2
2 αβ r X X X
= e−nαβ r/2 · Tr exp  Sa + β (y ν + hν ) ξ ν S a + βκ ηS a 
Sa 2 a=1 a=1 ν=1 a=1
A.2 Soluções da simetria de réplica
desacoplando o termo quadrático usando o a identidade de Hubbard-Stratonovitch, temos

" n
! !! n X
s n
!#
Z 2
2 r/2 1 z p X X X
Z0 = e−nαβ · Tr√ dz exp − + αβ 2 r Sa z · exp β (y ν + hν ) ξ ν S a + βκ ηS a
Sa 2π 2 a=1 a=1 ν=1
" n
! n s n
!#a=1
Z 2
2 1 z p X XX X
= e−nαβ r/2 · Tr √ dz exp − + αβ 2 r Sa z + β (y ν + hν ) ξ ν S a + βκ ηS a
S a 2π 2 a=1 a=1 ν=1 a=1
" n s
! #
2 1
Z  2
z X √ X
= e−nαβ r/2 · √ dz exp − · Tr exp β z αr + (y ν + hν ) ξ ν + κη S a
2π 2 S a
a=1 ν=1
1
Z  2  h
z √ →
− → −  in
→−
 
−nαβ 2 r/2
= e ·√ dz exp − · Tr exp β z αr + m + h · ξ + κη S
2π 2 S

1
Z  2 
z  √ →
− → − n
· 2 cosh β z αr + → −
2

= e−nαβ r/2 · √ dz exp − m + h · ξ + κη . (A.23)
2π 2


− →−
onde →

m, h e ξ são vetores s dimensionais.

Tomando o logaritmo natural na equação A.23 e como n → 0, a aproximação

Z Z
−z 2 /2 n 2 /2
ln dze f (z) ≈ n dze−z ln (f n (z)) , (A.24)

será usada. Obtemos

nαβ 2 r

1
Z  √ →
− →− n 
→−
 
−z 2 /2
ln Z0 = − + ln √ dze · 2 cosh β z αr + m + h · ξ + κη
2 2π
nαβ 2 r n
Z  √ →
− →−
dze−z /2 ln 2 cosh β z αr + → −
2
h  i
= − +√ m + h · ξ + κη .

87
2 2π
88
A expressão da energia livre fica então, como

 
α 1→− 2 αβ α βq
fRS = + m − rq + ln (1 − β + βq) −
2 2 2 2β 1 − β + βq
* +
1 nαβ 2 r n
Z  √ →
−  →
− i
→−
2
h 
− lim − +√ dze−z /2 ln 2 cosh β z αr + m + h · ξ + κη
n→0 βn 2 2π η ξν
 
α 1→ αβ α βq
= + −m2 + r (1 − q) + ln (1 − β + βq) −
2 2 2 2β 1 − β + βq
* +
1 1
Z  √ →
−  →− i
dze−z /2 ln 2 cosh β z αr + → −
2
h 
− √ m + h · ξ + κη
β 2π η ξν

√ →
− →

Lembrando que P (ηi ) = γδ ηi − ξiθ + (1 − γ) δ ηi + ξiθ e fazendo Ξ = z αr + →−
  
m + h · ξ , a densidade de energia livre pode-se

Estudo analítico do modelo RNED


escrever como

 
α αβ 1→− 2 α βq 1D E
fRS = + r (1 − q) + m + ln (1 − β + βq) − − hln [2 cosh β (Ξ + κη)]iη , (A.25)
2 2 2 2β 1 − β + βq β z

 2

√dz − z2
R
onde h. . .iz ≡ 2π
exp h. . .iξν representa uma media dupla: sobre os padrões recuperados ξ ν = ±1, e sobre o ruído multiplicativo
gaussiano z.
A.3 Equações de campo médio
A.3 Equações de campo médio

Calculando as derivadas parciais de fRS respeito dos parâmetros de ordem, temos

∂fRS ν
D
ν
E
= 0 −→ 0 = m − hξ tanh β (Ξ + κη)i η
∂mν D E z
ν ν
m = hξ tanh β (Ξ + κη)iη (A.26)
z

 
∂fRS αβ α β β (1 − β + βq) − βq (β)
= 0 −→ 0 = 0 − r+ −
∂q 2 2β 1 − β + βq (1 − β + βq)2
q
r= (A.27)
(1 − β + βq)2
* √  +
∂fRS αβ 1 α
= 0 −→ 0 = 0 + (1 − q) −  √
tanh β (Ξ + κη) · βz
∂r 2 β

 2 r η
z
√ D
αβ α E
(1 − q) = √ hz tanh β (Ξ + κη)iη

2 2 r z
√ D E

89
αrβ (1 − q) = hz tanh β (Ξ + κη)iη . (A.28)
z
90
Reescrevemos a medis envolvida em (A.28), fazendo uma integração por partes:

**Z  2 + +
D E dz z
hz tanh β (Ξ + κη)iη = √ exp − · z tanh β (Ξ + κη)
z 2π 2 | {z }
| {z } u
v0 η ξν

u = tanh β (Ξ + κη) → u0 = β √αrsech2 β (Ξ + κη)

   2
v 0 = z exp − z2

→ v = − exp − z2
2
*  +

Z
D E 1 2 2
hz tanh β (Ξ + κη)iη = √ −e−z /2 · tanh β (Ξ + κη) \+∞
−∞ + e−z /2 · β αrsech2 β (Ξ + κη) dz
z 2π η ξν
*Z  +
√ dz 2
√ e−z /2 · 1 − tanh2 β (Ξ + κη)
 
= β αr
2π η ξν
√ h D Ei
= β αr 1 − tanh2 β (Ξ + κη) η


(A.29)
z

Estudo analítico do modelo RNED


substituindo (A.29) em (A.28), temos:

∂fRS √  √ h D
Ei
= 0 −→ αrβ (1 − q) =  1 − tanh2 β (Ξ + κη) η
 
β αr
∂r D
z
2
E
q − 1 = −1 + tanh β (Ξ + κη) η
z
D
E
2
q = tanh β (Ξ + κη) η (A.30)
z
A.3 Equações de campo médio
Finalmente, obtêm-se
D  √ →
− →
− E 
→−

ν ν
m = ξ tanh β z αr + m + h · ξ + κη (A.31)
η z
q
r = (A.32)
(1 − β + βq)2
D  √ →
− →
− E 
→−

2
q = tanh β z αr + m + h · ξ + κη . (A.33)
η z

A.3.1 Soluções em T = 0

Agora indo ao núcleo da teoria AGS em T =  0. Tratando primeiro com a solução para a chamada fase de recuperação ferromagnética
1 ν = θ


ν
(FMR), correspondente ao caso em que m ∼ (nos representaremos ele como m). Lembrando-se que P (η) = γδ η − ξ θ +
0 ν 6= θ

 →

(1 − γ) δ η + ξ θ ,reescrevem-se as medias envolvidas nas equações (A.31), (A.33) para o caso em que h = 0
Na primeira media envolvida, fazemos:

Z +∞ √


ν θ θ
 dz −z2 /2 θ θ θ

ξ tanh β z αr + mξ ± κξ z
= √ e · ξ tanh β z αr + mξ ± κξ
−∞ 2π ξν
Z +∞
dz 2 √
√ e−z /2 ξ θ tanh β z αr + mξ θ ± κξ θ ξν


=
−∞ 2π
Z +∞ !
√  1
Z Z Y
dz −z2 /2 :
P ξ θ ξ θ tanh β z αr + mξ θ ± κξ θ dξ θ · ν
) dξ ν
  
= √ e P(ξ
−∞ 2π ν6

=θ,
Z +∞
 √
Z 
(ξ =1)
2
dz −z2 /2 θ
 θ 
θ 2 θ θ

θ
= √ e P ξ ξ tanh β z ξ αr + mξ ± κξ dξ
−∞ 2π
Z +∞

Z 
dz −z2 /2 θ
 θ θ θ
 θ
= √ e P ξ ξ tanh βξ zξ αr + m ± κ dξ

91
−∞ 2π
92
como a função tanh é impar, cumpre-se tanh (ξx) = ξ tanh (x), pelo que temos
 
Z +∞ 1
√ √
Z
dz 2 2
√ e−z /2  P ξ θ ξ

ν >
 θ 
ξ tanh β z αr + mξ θ ± κξ θ z = tanh β zξ θ αr + m ± κ dξ θ 
 
−∞ 2π 
Z +∞

Z 
dz −z2 /2 θ
 θ
 θ
= √ e P ξ tanh β zξ αr + m ± κ dξ
−∞ 2π
Fazendo a mudança de variável w = zξ θ → dw = ξ θ dz. Substitui-se na integral, tendo em conta que ξ θ = ±1 e os limites de integração
mudam com o sinal de ξ θ , temos

Z +∞ Z


dw 2
ν θ θ
√ e−w /2 θ
tanh β w αr + m ± κ dξ θ

  
ξ tanh β z αr + mξ ± κξ z
= P ξ
−∞ 2π
*1
 
Z +∞ √
Z 
dw 2   θ
√ e−w /2 tanh β θ

= w αr + m ± κ P
ξ dξ 
 
−∞ 2π 
Z +∞ √
dw 2
√ e−w /2 · tanh β w αr + m ± κ .

= (A.34)
−∞ 2π
Tomando o limite T → 0 ou β → ∞ da expressão (A.34)

Estudo analítico do modelo RNED


√ √
Z
β→∞ dw 2
ν θ θ
√ e−w /2 · sgn w αr + m ± κ

 
ξ tanh β z αr + mξ ± κξ z
'


Z
dw −w2 /2   
≈ √ e · sgn w αr + m ± κ + 1 − 1


Z
dw −w2 /2   
= √ e · sgn w αr + m ± κ + 1 − 1

A partir da definição da função sinal,
 

√ +1 w αr + m ± κ > 0 w > − m±κ
√ +1
 
 αr
sgn w αr + m ± κ = ou equivalentemente (A.35)

−1 w αr + m ± κ < 0
 −1 w < − m±κ
 √
αr
A.3 Equações de campo médio
temos:
:0 Z :2
− m±κ    

Z √
√ +∞ √

ν αr dw −w2 /2    dw −w 2 /2  


ξ tanh β z αr + mξ θ ± κξ θ z ≈ −1 +
 
√ e · sgn w αr+m ± κ + 1 +

√ e · sgn w αr+m ± κ + 1

−∞ 2π    − m±κ
√ 2π   
 αr 
Z +∞
dw 2
≈ −1 + 2 √ e−w /2
− m±κ

αr

fazendo a mudança de variável 


m±κ m±κ
dw w = − √αr −→ x = − √

w 2αr
x = √ → dx = √
2 2 
w → ∞ −→ x → ∞
a equação anterior toma a forma

Z +∞
dx 2
√ e−x

ν
ξ tanh β z αr + mξ θ ± κξ θ z ≈ −1 + 2

m±κ
−√ π
2αr

Z 0 Z +∞ :0


2 −x2 2 −x
2
≈ √ + √  −1

dxe dxe

π m±κ
−√  π 0
2αr
Z 0
2 2
≈ √ dxe−x
π m±κ
−√
2αr

devido à simetria da função, escrevemos:


m±κ


Z
2 2αr 2
ν θ θ
dxe−x


ξ tanh β z αr + mξ ± κξ z
≈√
π 0
Rx 2
e como erf (x) = √2
π 0
dz · e−z , escrevemos a expressão anterior como


 
m±κ
ξ tanh β z αr + mξ θ ± κξ θ z ≈ erf
ν


√ . (A.36)

93
2αr
94
Desenvolvendo uma expressão para a outra media envolvida:
Z +∞
√ √


2 θ θ
 dz −z2 /2 2 θ θ

tanh β z αr + mξ ± κξ z = √ e · tanh β z αr + mξ ± κξ
−∞ 2π ξν
Z +∞
dz 2 √
√ e−z /2 tanh2 β z αr + mξ θ ± κξ θ ξν


=
−∞ 2π
1
 
Z +∞ *


Z Z Y
dz −z2 /2  θ 2 θ θ θ

(ξν ) dξ ν 
  
= √ e  P ξ tanh β z αr + mξ ± κξ dξ · P

−∞ 2π ν6=
θ

+∞ Z
 √

(ξ2 =1)
Z
dz −z2 /2 θ
 2

θ 2 θ θ

θ
= √ e P ξ tanh β z ξ αr + mξ ± κξ dξ
−∞ 2π
Z+∞ Z


dz −z2 /2 θ
 2 θ θ
 θ
= √ e P ξ tanh βξ zξ αr + m ± κ dξ
−∞ 2π

como a função tanh2 é par, temos tanh2 (ξx) = tanh2 (x), obtêm-se
Z +∞
√ √
Z 

2 θ θ
 dz −z2 /2 θ
 2 θ
 θ
tanh β z αr + mξ ± κξ z = √ e P ξ tanh β zξ αr + m ± κ dξ .
−∞ 2π

Estudo analítico do modelo RNED


Fazendo a mudança de variável w = zξ θ → dw = ξ θ dz. Substitui-se na integral, tendo em conta que ξ θ = ±1 e os limites de integração
mudam de acordo ao sinal de ξ θ , temos


Z +∞ Z


dw 2
2
tanh β z αr + mξ θ ± κξ θ z = √ e−w /2 θ 2
tanh β w αr + m ± κ dξ θ

  
P ξ
−∞ 2π
*1
 
Z +∞ √
Z 
dw 2  
√ e−w /2 tanh2 β w αr + m ± κ ξ θ dξ θ 

= P
 
−∞ 2π 
Z +∞ √
dw 2
√ e−w /2 · tanh2 β w αr + m ± κ

= (A.37)
−∞ 2π
A.3 Equações de campo médio
Tendo em conta que 1 − tanh2 x = sech2 x

Z +∞ √
dw 2
tanh2 β z αr + mξ θ ± κξ θ z = √ e−w /2 · tanh2 β w αr + m ± κ − 1 + 1

   
−∞ 2π

Z
dw 2
= 1 − √ e−w /2 · sech2 β w αr + m ± κ ,


fazendo a substituição algébrica
√  √ x − (m ± κ) β
x = β w αr + m ± κ → dx = β αrdw e w = √
β αr

obtemos
" #
√ (x − (m ± κ) β)2
Z
1 dx
tanh2 β z αr + mξ θ ± κξ θ
· sech2 (x)


z
= 1− √ √ · exp −
2π β αr 2β 2 αr
" #
(m ± κ)2 β 2
 2 
x − 2x (m ± κ) β
Z
1
= 1− √ dx · exp − · exp − · sech2 (x)
β 2παr 2β 2 αr 2β 2 αr
" #Z
(m ± κ)2
 2 
1 x − 2x (m ± κ) β
= 1− √ · exp − dx · exp − · sech2 (x)
β 2παr 2αr 2β 2 αr
h 2 i
Como β → ∞, temos que exp − x −2x(m±κ)β
2
2β αr
→ 1, pelo que pode-se escrever
" #Z
√ 1 (m ± κ)2
tanh2 β z αr + mξ θ ± κξ θ
dx · sech2 (x)


z
≈ 1− √ · exp −
β 2παr 2αr
" #
1 (m ± κ)2
≈ 1− √ · exp − · tanh (x) |+∞
−∞
β 2παr 2αr
" #
(m ± κ)2
r
1 2
≈ 1− · exp − (A.38)

95
β παr 2αr
96
Com ajuda de (A.36) e (A.38), reescrevemos as equações (A.31), (A.33) e (A.32), obtendo-se
  
m+κ m−κ
m = γerf √ + (1 − γ) erf √ (A.39)
2αr 2αr
q
r = (A.40)
(1 − β + βq)2
r
1 2 h −(m+κ)2 /2αr 2
i
q = 1− γe + (1 − γ) e−(m−κ) /2αr (A.41)
β παr

Usando (A.41) na equação (A.40) e tendo em conta que β → ∞, temos

r [1 − β (1 − q)]2 = q
:0



r !2 r 
2 h −(m+κ)2 /2αr 1 2 h −(m+κ)2 /2αr
i  i
2 2
r 1− γe + (1 − γ) e−(m−κ) /2αr = 1− γe  + (1 − γ) e−(m−κ) /2αr
παr β παr 
!2 
r 
2 h −(m+κ)2 /2αr 2
i
+ (1 − γ) e−(m−κ) /2αr

Estudo analítico do modelo RNED


r 1− γe ' 1.
παr

√ √
Fazendo a troca de variáveis m = y 2αr e κ = x 2αr na equação anterior, e tomando a raiz quadrada, obtemos
r
√ 2 h −(y+x)2 2
i
r− γe + (1 − γ) e−(y−x) ≈ 1. (A.42)
πα

fazendo essa substituição na equação (A.39), temos


y 2αr = γerf (y + x) + (1 − γ) erf (y − x) (A.43)
A.3 Equações de campo médio
De (A.42) e (A.43), temos
r
γerf (y + x) + (1 − γ) erf (y − x) 2 h −(y+x)2 −(y−x)2
i
√ − γe + (1 − γ) e = 1
y 2α πα
" #

r
2  −(y+x)2 2

y 2α 1 + γe + (1 − γ) e−(y−x) = γerf (y + x) + (1 − γ) erf (y − x)
πα

obtendo assim a equação

γerf (y + x) + (1 − γ) erf (y − x)
y=√ 2 2 .
2α + √2π γe−(y+x) + (1 − γ) e−(y−x)


√ √
Com m = y 2αr e κ = x 2αr em A.39, obtemos

m = γerf (y + x) +
(1 − γ) erf (y + x) .

Observa-se destas equações, os seguintes casos particulares:

• Ao fazer γ = 1, obtêm-se
erf (y + x)
y = √ 2
2α + √2π e−(y+x)
m = erf (y + x) ,

recupera-se a forma das equações inicialmente obtidas no modelo AGS, que correspondem ao caso do reconhecimento de um padrão

97
previamente armazenado.
98
• Se além de γ = 1, consideramos que y + x → x, obtemos

erf (x)
y = √
2α + √2π e−x2
m = erf (x) ,

recuperando-se as equações no caso do reconhecimento de um padrão não armazenado (ortogonal).


Para que as equações anteriores sejam idênticas as expressões originais, basta fazer κ = h (ou x = h/ 2αr).

Estudo analítico do modelo RNED


Apêndice A

Criação da Matriz de diluição

Na construção de modelos de redes neuronais diluídos assimetricamente, considera-se um sis-


tema de N spins de Ising Si = ±1 cujas interações sinápticas Jij são dadas por

Jij = Dij Tij (A.1)

onde Dij escolhe-se (independentemente de Dji ) aleatoriamente de acordo à distribuição

P (Dij ) = (1 − D) δ (Dij − 1) + Dδ (Dij ) , (A.2)

e Tij obedece a regra de aprendizado de Hebb. A constante D é chamada de parâmetro de


diluição e indica a porcentagem de conexões sinápticas cortadas. Um dos principais desafios
ao desenvolver um programa que permita simular este sistema, é a construção da matriz de
diluição, a qual armazena a informação de todas as conexões sinápticas. O elemento de essa
matriz, na posição (i, j) será 1 ou 0 indicando a existência ou não da conexão sináptica Jij .
Lembre-se que, todas as conexões sinápticas tem igual probabilidade de ser cortadas e não
existe conexão de um neurônio com ele mesmo.
A continuação descreve-se detalhadamente a subroutina matrizdilucao, responsável pela
construção da matriz de diluição.
100 Criação da Matriz de diluição

1. Ao chamar a subroutina matrizdilucao, inicialmente constrói-se a matriz Dij para uma


rede de N neurônios totalmente conectados. Assim, temos
 
0 1 1 ··· 1
 
 1 0 1 1 
 
 
Mdil =  1 1 0 1 , (A.3)
 
 ..
 
..
. 1 

 .
 
1 1 1 1 0

A parte do código FORTRAN encarregada deste processo, é simples e se mostra nas


linhas 16-19 do código 1.

2. Cria-se um vetor, chamado Posicao, cujos elementos tem a forma (i − 1) N + j. Esse


vetor conterá todas as coordenadas (i, j) dos 1’s presentes na matriz Dij , excluindo-se as
coordenadas dos 0’s.
 
Pos = 2 . (A.4)
2 . . . N N + 1 . . . 2N . . . N (N − 1) + 1 . . . N − 1

3. O chamado da subroutina Ransam (em 56356463), devolve um vetor Itera, de tamanho


D%N , onde D é a diluição das conexões sinápticas. As componentes do vetor Itera
serão escolhidas equiprovável e aleatoriamente a partir do vetor Posicao.

• Exemplo:
Dado o vetor de 100 elementos, X (N = 100) = (1, 2, 3, . . . , 100), a subroutina
Ransam, devolve o subvetor de 70 elementos escolhidos aleatoriamente a partir de
X, A (K = 70) = (2, 7, 100, . . . , 40), .

4. O vetor Itera conterá a informação das conexões sinápticas Jij a serem cortadas na matriz
de conexão D. Esta informação sera recuperada mediante a subroutina ReposicaoMatriz
e introduzida na matriz de diluição.

Na construção da subroutina Ransam, se fez uso da função Ran2, do livro "Numerical


Recipes", a qual fornece números aleatórios perfeitos, dentro dos limites de sua precisão de
ponto flutuante.
101

1 !
===========================================================================

2 SUBROUTINE MatrizDilucao(matrizdil,comprimento,probdilucao,iseed)
3 !
---------------------------------------------------------------------------

4 IMPLICIT NONE
5 INTEGER*8:: dil_int,comprimento,posij
6 INTEGER*8:: i,j,k,compl
7 INTEGER*8:: matrizdil(comprimento,comprimento)
8 INTEGER*8,ALLOCATABLE:: iteracao(:),posicao(:)
9 INTEGER:: iseed
10 REAL*8:: probdilucao
11

12 compl = comprimento**2-comprimento
13 dil_int = idnint(DBLE(compl)*probdilucao)
14 ALLOCATE(posicao(compl),iteracao(dil_int))
15 !------------construcao 1 - matrizdil-----------
16 matrizdil = 1
17 DO i = 1,comprimento
18 matrizdil(i,i) = 0
19 ENDDO
20 !------------vetor de posicoes-------------
21 k = 0
22 DO i=1,comprimento
23 DO j=1,comprimento
24 IF (i /= j) THEN
25 k = k + 1
26 posicao(k) = (i-1)*comprimento + j
27 ENDIF
28 ENDDO
29 ENDDO
30

31 !------------escolha aleatoria de cortes---------


32 CALL ransam(posicao,iteracao,compl,dil_int,iseed)
33

34 !------------construcao 2 - matrizdil----------
35 DO k=1,dil_int
36 posij = iteracao(k)
37 CALL reposicmatriz(posij,comprimento,i,j)
38 matrizdil(i,j) = 0
39 ENDDO
40

41 ENDSUBROUTINE
Listing A.1: Subroutina MatrizDilucao
102 Criação da Matriz de diluição

1 !=======================================================================
2 SUBROUTINE ReposicaoMatriz(numero,comprimento,i,j)
3 !-----------------------------------------------------------------------
4 IMPLICIT NONE
5 INTEGER*8:: numero, comprimento
6 INTEGER*8:: i, j
7 !-----------------------------------------------------------------------
8 i = numero/comprimento + 1
9 j = MOD(numero,comprimento)
10 IF (j == 0) THEN
11 i = numero/comprimento
12 j = comprimento
13 ENDIF
14

15 ENDSUBROUTINE
Listing A.2: Subroutina ReposicaoMatriz

1 !=======================================================================
2 SUBROUTINE Ransam(X,A,n,k,Iseed)
3 !-----------------------------------------------------------------------
4 IMPLICIT NONE
5 INTEGER*8:: n,k,j,m,l
6 INTEGER:: Iseed
7 REAL*8 :: Ran2
8 INTEGER*8:: X(n),A(k)
9 !-----------------------------------------------------------------------
10 m=0
11 DO 50 j = 1, n
12 l = INT((Float(n-j+1))*Ran2(Iseed))+1
13 IF (l > (k-m)) GOTO 50
14 m = m + 1
15

16 A(m) = X(j)
17 If (m >= k) GOTO 99
18 50 CONTINUE
19 99 RETURN
20 ENDSUBROUTINE

Listing A.3: Subroutina Ransam


Referências Bibliográficas

[1] Milton Abramowitz, Irene A Stegun, et al. Handbook of mathematical functions: with
formulas, graphs, and mathematical tables, volume 55. Dover publications New York,
1972.

[2] Daniel J Amit, Hanoch Gutfreund, and Haim Sompolinsky. Spin-glass models of neural
networks. Physical Review A, 32(2):1007, 1985.

[3] Daniel J Amit, Hanoch Gutfreund, and Haim Sompolinsky. Storing infinite numbers of
patterns in a spin-glass model of neural networks. Physical Review Letters, 55(14):1530,
1985.

[4] Daniel J Amit, Hanoch Gutfreund, and Haim Sompolinsky. Statistical mechanics of neural
networks near saturation. Annals of physics, (173):30–67, 1987.

[5] Daniel J Amit, Hanoch Gutfreund, and Haim Sompolinsky. Statistical mechanics of neural
networks near saturation. Annals of physics, 173(1):30–67, 1987.

[6] Varios Autores. Lobes of the brain. https://qbi.uq.edu.au/brain/


brain-anatomy/lobes-brain, 2005.

[7] Elie Bienenstock, F Fogelman Soulié, and Gérard Weisbuch. Disordered Systems and
Biological Organization: Proceedings of the NATO Advanced Research Workshop on Di-
sordered Systems and Biological Organization held at Les Houches, February 25–March
8, 1985, volume 20. Springer Science & Business Media, 2012.

[8] LAV Carvalho. Redes neuronais e a tradição conexionista da inteligência artificial. Rela-
tório Interno, 1988.
104 REFERÊNCIAS BIBLIOGRÁFICAS

[9] Andrea Crisanti, Daniel J Amit, and Hanoch Gutfreund. Saturation level of the hopfield
model for neural network. EPL (Europhysics Letters), 2(4):337, 1986.

[10] I.N. Da Silva, D.H. Spatti, and R.A. Flauzino. Redes Neurais Artificiais para Engenharia
e Ciencias Aplicadas. ARTLIBER. ISBN 9788588098534. URL https://books.
google.com.br/books?id=w2VHbwAACAAJ.

[11] N.G. de Bruijn. Asymptotic Methods in Analysis. Bibliotheca mathematica. Dover Pu-
blications, 1981. ISBN 9780486642215. URL https://books.google.com.br/
books?id=_tnwmvHmVwMC.

[12] L.V. Fausett and L. Fausett. Fundamentals of Neural Networks: Architectures, Al-
gorithms, and Applications. Prentice-Hall international editions. Prentice-Hall, 1994.
ISBN 9780133341867. URL https://books.google.com.br/books?id=
ONylQgAACAAJ.

[13] José Fernando Fontanari and Roland Koberle. Enhancing the learning of a finite number
of patterns in neural networks. Journal of Physics A: Mathematical and General, 21(4):
L253, 1988.

[14] Tamas Geszti. Physical models of neural networks. World Scientific, 1990.

[15] Mirta B Gordon. Memory capacity of neural networks learning within bounds. Journal
de Physique, 48(12):2053–2058, 1987.

[16] DO Hebb. Neuropsychology: Retrospect and prospect. Canadian Journal of Psychology/-


Revue canadienne de psychologie, 37(1):4, 1983.

[17] John J Hopfield. Neural networks and physical systems with emergent collective com-
putational abilities. Proceedings of the national academy of sciences, 79(8):2554–2558,
1982.

[18] John Hubbard. Calculation of partition functions. Physical Review Letters, 3(2):77, 1959.

[19] W Kinzel. Learning and pattern recognition in spin glass models. Zeitschrift für Physik B
Condensed Matter, 60(2-4):205–213, 1985.
REFERÊNCIAS BIBLIOGRÁFICAS 105

[20] Scott Kirkpatrick and David Sherrington. Infinite-ranged models of spin-glasses. Physical
Review B, 17(11):4384, 1978.

[21] Werner Krauth, J-P Nadal, and Marc Mezard. The roles of stability and symmetry in the
dynamics of neural networks. Journal of Physics A: Mathematical and General, 21(13):
2995, 1988.

[22] William A Little. The existence of persistent states in the brain. In From High-Temperature
Superconductivity to Microminiature Refrigeration, pages 145–164. Springer, 1974.

[23] Warren S McCulloch and Walter Pitts. A logical calculus of the ideas immanent in nervous
activity. The bulletin of mathematical biophysics, 5(4):115–133, 1943.

[24] Marc Mézard, Giorgio Parisi, and Miguel Virasoro. Spin glass theory and beyond: An
Introduction to the Replica Method and Its Applications, volume 9. World Scientific Pu-
blishing Company, 1987.

[25] Ferenc PazmAndi and Tamas Geszti. Relative stability in the dynamics of a two-pattern
neural net. Journal of Physics A: Mathematical and General, 22(23):5117, 1989.

[26] P Peretto. On learning rules and memory storage abilities of asymmetrical neural
networks. Journal de Physique, 49(5):711–726, 1988.

[27] Sebastian Raschka. Machine learning faq. https://sebastianraschka.com/


faq/docs/diff-perceptron-adaline-neuralnet.html, 2013.

[28] D.E. Rumelhart, J.L. McClelland, and San Diego. PDP Research Group University of
California. Parallel Distributed Processing: Foundations. A Bradford book. MIT Press,
1986. ISBN 9780262680530. URL https://books.google.com.br/books?
id=eFPqqMBK-p8C.

[29] David Sherrington and Scott Kirkpatrick. Solvable model of a spin-glass. Physical review
letters, 35(26):1792, 1975.

[30] Thearlismar Soares and Fabiano Fagundes. Aplicacao de redes neurais artificiais para o
diagnostico de patologias traumato ortopedicas dos membros inferiores. page 10. EN-
COINFO, 2012.
106 REFERÊNCIAS BIBLIOGRÁFICAS

[31] JL Van Hemmen and RG Palmer. The replica method and solvable spin glass model.
Journal of Physics A: Mathematical and General, 12(4):563, 1979.

[32] Gérard Weisbuch and Françoise Fogelman-Soulié. Scaling laws for the attractors of hop-
field networks. Journal de Physique Lettres, 46(14):623–630, 1985.

Potrebbero piacerti anche