Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
nilobarrantes
September 2019
ii
Abstract
iv
Sumário
Prefácio xvii
1 Introdução 1
1.1 Organização da Dissertação . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2 Um breve Histórico 3
2.1 Os primórdios das Redes Neurais . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2 O Perceptron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.3 A Adaline . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
6 Modelo Curado-Nobre 37
6.1 O modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
6.1.1 Teoria de Campo médio no modelo CN . . . . . . . . . . . . . . . . . 39
6.1.2 Equações de campo médio . . . . . . . . . . . . . . . . . . . . . . . . 40
6.1.3 Soluções em T → 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
7 Resultados e Discussões 43
9 RNED diluído 53
9.1 Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
9.1.1 Análise sinal-ruído . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
9.2 Simulações Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
9.2.1 Padrões Descorrelacionados . . . . . . . . . . . . . . . . . . . . . . . 57
9.2.2 Padrões Espacialmente Correlacionados . . . . . . . . . . . . . . . . 59
9.2.3 Padrões Diluídos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
2.1 Diagrama do (a) Perceptron, que usa uma função de ativação discreta como a
de McCulloch e Pits, e da (b) Adaline, a qual faz uso de uma função de ativação
linear[27]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
9.1 Magnetizações mθ (κ), m⊥ (κ) e ∆m (κ) para sistemas RNED com padrões
armazenados descorrelacionados e γ = 0.74. A figura mostra como o parâmetro
de carga influencia no aparecimento de κC . (a) α = 0.5. (b) α = 0.7. (c)
α = 0.9. (d) α = 1.0. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
9.3 Magnetizações mθ (κ), m⊥ (κ) e ∆m (κ) para sistemas RNED com padrões
armazenados descorrelacionados e γ = 0.9. A figura mostra que κC cresce
conforme o parâmetro de carga aumenta. (a) α = 0.5. (b) α = 0.7. (c) α = 0.9.
(d) α = 1.0. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
9.4 Magnetizações mθ (κ), m⊥ (κ) e ∆m (κ) para sistemas RNED com padrões
armazenados descorrelacionados e γ = 0.9. A figura mostra que κC é aproxi-
√
madamente igual a α. (a) α = 0.5. (b) α = 0.7. (c) α = 0.9. (d) α = 1.0. . . 64
9.7 Magnetizações mθ (κ), m⊥ (κ) e ∆m (κ) para sistemas RNED com padrões
armazenados descorrelacionado, γ = 1.0 e α = 40.0. Observamos uma grande
semelhança entre as curvas mθ e m⊥ , o qual indica que αc ≈ 40. . . . . . . . . 67
LISTA DE FIGURAS xi
introducao
xviii Prefácio
Capítulo 1
Introdução
Pesquisadores das mais diversas áreas, inspirados neste modelo, tentaram simular o funci-
onamento do cérebro, principalmente o processo de aprendizagem por experiência, a fim de
criar sistemas inteligentes capazes de realizar tarefas como classificação, reconhecimento de
padrões, processamento de imagens, entre outras atividades. Como resultado destas pesqui-
sas surgiu o modelo do Neurônio Artificial e posteriormente um sistema com vários neurônios
interconectados, a chamada Rede Neural Artificial (RNA).
Lobes-of-the-Cerebrum.jpg
h
Figura 1.1: Vista lateral do cérebro, mostrando as principais áreas do córtex cerebral[6].
2 Introdução
Um breve Histórico
S redes neurais artificiais, existes aproximadamente desde a década de 1950. Mas durante
A várias décadas, mesmo com a evolução da arquitetura dos modelos, ainda faltavam “in-
gredientes” que fizessem os modelos realmente funcionar. Os dois “ingredientes” faltantes
surgiram quase ao mesmo tempo. O Big Data; O volume de dados gerados em variedade e
velocidade cada vez maiores, que permite criar modelos e atingir altos níveis de precisão, e a
programação Paralela em GPU’s; As unidades de processamento gráfico, que permitem realizar
operações matemáticas de forma paralela, principalmente operações com matrizes e vetores,
elementos presentes em modelos de redes neurais artificias. A união destes ingredientes permi-
tiu a evolução na qual nos encontramos atualmente:
Para compreender onde estamos hoje, analisaremos como chegamos ate aqui. Vejamos
então uma breve historia das redes neurais artificiais.
Um dos primeiros registros do surgimento das RNA’s se deu com a publicação de um artigo
de McCulloch e Pitts em 1943[23], no qual definiu-se o neurônio formal, provando que são
unidades capazes de executar operações logicas. Já em 1949, Donad Hebb criou o primeiro
método de treinamento das RNA’s. Ele apresentou uma hipótese sobre a maneira com que a
4 Um breve Histórico
2.2 O Perceptron
Nas décadas de 1950 e 1960, vários pesquisadores estavam propondo modelos de redes neurais
contendo modificações no modelo original de McCulloch e Pitts e regras de modificação dos
pesos sinápticos diferentes da lei de Hebb para tratar de problemas de aprendizado.
Uma das regras de aprendizado proposta naquela época que causou maior impacto foi a
Regra de Aprendizado do Perceptron. Esta regra fazia parte de um modelo de rede neuronal de-
senvolvido pelo cientista da computação Frank Rosenblatt entre 1958 e 1962, que foi chamado
de Perceptron (vide fig. 2.1(a)).
O Perceptron de Rosenblatt foi desenvolvido inspirado no sistema visual dos mamíferos,
6 Um breve Histórico
Figura 2.1: Diagrama do (a) Perceptron, que usa uma função de ativação discreta como a de
McCulloch e Pits, e da (b) Adaline, a qual faz uso de uma função de ativação linear[27].
com objetivo de lidar com o problema de reconhecimento de padrões. Este é um tipo de ta-
refa que os seres humanos fazem sem nenhum esforço aparente e de forma quase instantânea.
Porém, é um dos problemas mais difíceis de serem resolvidos por uma máquina.
2.3 A Adaline
Os engenheiros da Universidade de Stanford, Berand Widrow e Marcian Hoff, poucos meses
apos a publicação do teorema da convergência do Perceptron por Rosenblatt, publicaram um
trabalho descrevendo uma rede neural muito parecida com o Perceptron, porem com as uni-
dades de saída tendo funções de transferência lineares e com uma nova regra de aprendizado
supervisionado, que ficou conhecida como Regra Delta. A rede neural apresentada por eles foi
batizada de Adaline (ADAptive LINear Element).
Assim como o Perceptron, a Adaline é uma rede neural tendo uma camada de entrada com
N unidades e uma camada de saída com apenas uma unidade. Não há camadas escondidas.
A camada de entrada da Adaline é similar à camada A do Perceptron. As atividades dos seus
neurônios fornecem uma representação do padrão de entrada sendo apresentado à rede neural
e os seus valores são números reais quaisquer. Porém, a unidade de saída é diferente. Na
Adaline, a atividade do neurônio de saída não é uma variável binária como no Perceptron, mas
uma função linear do seu nível de ativação (veja a figura 2.1(b)).
As aplicações tidas em mente por Widrow e Hoff para a Adaline eram o reconhecimento de
padrões, processamento de sinais, regressão linear e controle adaptativo. Atualmente, a Adaline
ainda é utilizada em algumas dessas aplicações.
Capítulo 3
UPONHA - SE que a imagem de uma igreja, uma casa com paredes de cor branco, uma
S cruz no teto, janelas de cores e portas marrom muito grandes esta armazenada na sua
memoria. Uma memoria endereçável por conteúdo teria a capacidade de recuperar esta imagem
da memoria sob a base de suficiente informação parcial. Por exemplo, a informação de entrada
“casa com uma cruz no teto e portas grandes” poderia ser suficiente para recuperar a a imagem
de uma igreja. Uma memoria ideal seria capaz de tratar com erros e recuperar esta imagem
inclusive a partir de uma entrada “escombros de uma casa com uma cruz na porta”.
Cada elemento de uma rede neuronal biológica, o neurônio, possui um corpo central, um axô-
nio e diversos dendritos que se comunicam com outros neurônios mediante as sinapses. Na
ausência de estímulos, o interior do neurônio esta a um potencial de −70 mV em relação ao
exterior, estado passivo. Quando se estimula o neurônio observam-se mudanças na diferencia
de potencial (DDP) através de sua membrana. No caso de hiperpolarização, DDP mais nega-
tiva, o neurônio permanece passivo e no caso de despolarização, DDP menos negativa, somente
no caso dela atingir um certo potencial limiar (≈ −60 mV ), gera-se um pulso elétrico como
consequência de uma rápida variação de potencial, conhecida como potencial de ação. O po-
tencial de ação propaga-se pelo axônio e ao chegar aos terminais sinápticos estimula a liberação
de substancias químicas, chamadas neurotransmissores, capazes de induzir uma despolarização
ou hiperpolarização na membrana do neurônio receptor. O potencial produzido pela alteração
8 Modelagem de uma rede de neurônios
neuronio-biologico.png
S = 2σ − 1. (3.1)
É fato de que uma função muito importante do sistema nervoso é o aprendizado e a memoria,
pois muitas outras funções tais como a capacidade de adaptação a variações ambientais e pro-
cessamento visual, que devido a sua complexidade são adquiridas por aprendizado na primeira
infância, dependem dele.
Mesmo com diversos candidatos, a ferramenta mais robusta e suficientemente flexível para
lhe confiar o papel da memoria, é de longe, a força de conexão sináptica Jij . Com base nesta
ideia, Hebb no ano 1983 [16], descreveu um mecanismo básico da plasticidade sináptica cha-
mada também de “regra de Hebb”, que afirma;
Onde os p conjuntos de {ξiµ } são algumas configurações da rede que foram fixadas pelo pro-
cesso de aprendizagem. Devido ao alcance infinito das forcas de interação, o fator N −1 é
necessário para a obtenção do limite termodinâmico. A escolha de (3.2) permite que os {ξiµ }
sejam as configurações estáveis da rede, dando assim à rede uma capacidade de aprendizagem
e memoria.
As redes Neuronais artificiais (RNAs) fundamentam-se nos estudos sobre a estrutura do cérebro
humano para tentar emular sua forma inteligente de processar informação. Alguns estudos da
neurofisiologia consideram que a riqueza computacional do cérebro humano esta associada ao
grande numero de neurônios, interconectados por uma rede complexa de sinapses[8].
10 Modelagem de uma rede de neurônios
Fazendo uso dos neurônios lógicos de McCullough e Pittts e a regra de Hebbs, Hopfield
criou o seu modelo de rede neural, o qual baseia-se nas seguintes regras:
2. Fazendo a suposição de que a soma dos potenciais de ação é idêntico a soma dos po-
tenciais pós-sinápticos Vi . O neurônio i, emitira um potencial de ação ao longo de seu
axônio somente depois da comparação do potencial de membrana acumulado com o seu
potencial limiar Ui . Assim, o estado do neurônio i, sera
1 Vi > Ui
σi = (3.4)
0 Vi < Ui
4. Como o modelo, que estamos idealizando, deve descrever a dinâmica do sistema, se as-
sume que o estado de uma rede neural deve evoluir de acordo com as interações entre seus
neurônios, os quais estão interconectados pelas junções sinápticas de força Jij . Com ob-
jetivo de fazer uma analogia da rede neural com uma rede de spins, Hopfield, obedecem
a “regra de Hebb”, dada por
p
1 X µ µ
Jij = ξ ξ (1 − δij ) . (3.8)
N µ=1 i j
Da equação anterior, conclui-se que, as sinapses são simétricas (Jij = Jji ) e os neurônios
não estão conectados a si mesmos(Jii = 0).
5. Devido a que o modelo de Hopfield não envolve nenhum mecanismo dinâmico especi-
fico é necessário especificar como vá-se incrementar a variável temporal. Assume-se,
portanto, que a atualização do estado interno dos neurônios é feita de forma “assín-
crona”(ou seja, um neurônio por vez muda seu estado interno, uma vez atualizado, o
valor de saída deste neurônio é imediatamente utilizado para atualizar o estado interno
dos demais neurônios durante uma iteração do processo cíclico de busca e recuperação
de padrões - uma iteração é completada quando todos os neurônios da rede tem seus
estados internos atualizados).
Segundo Hopfield, a rede neuronal sempre evolui minimizando sua “energia computacional”
como uma consequência de que os neurônios devem obedecer a condição de alineamento com
seu campo molecular. É possível associar uma quantidade extensiva, um Hamiltoniano, ao
modelo neural de Hopfield. Isto é
X 1X X
H (I) = − hi Si = − Jij Si Sj − hext
i Si . (3.9)
i
2 ij i
12 Modelagem de uma rede de neurônios
Figura 3.2: Superfície de quase energia do modelo de Hopfield: Os poços profundos são atra-
tores que correspondem aos padrões armazenados, já os platôs rasos são memórias espúrias
[14].
As interações Jij podem ser a priori de qualquer sinal e, portanto, o Hamiltoniano (3.9), é
equivalente ao Hamiltoniano de um vidro de spin. Em modelos de vidro de spin, muitas ve-
zes assume-se que a distribuição de interação é simétrica e sua média é zero. O equivalente
biológico é um número equivalente de sinapses excitatórias e inibitórias.
A rede de Hopfield pode ser vista como uma memoria associativa não linear, ou uma memo-
ria endereçável por conteúdo, cuja principal função é restaurar um padrão binário armazenado
(item de memoria), em resposta à apresentação de uma versão incompleta (papel restaurador)
ou ruidosa (papel de corretor de erro) deste padrão. Ou seja, a recuperação de um padrão arma-
zenado na memoria se da a partir de um subconjunto das informações contidas no padrão.
Quando a rede neural de Hopfield armazena K memorias fundamentais através do ajuste de
seus pesos pela regra de Hebb generalizada, os estados estáveis presentes na superfície de ener-
gia não vão se restringir aos estados associados às memorias fundamentais armazenadas. Todos
os estados estáveis não associados às memorias fundamentais armazenadas são denominados
“atratores espúrios”.
hext
i = 0. (3.10)
Essa suposição implica que os limiares reais dos neurônios sejam balanceados pela atividade
média na rede. A eliminação dos limiares na descrição do modelo, permite focalizar a atenção
no papel das eficacias sinápticas, Jij , no controle do desempenho coletivo das redes neurais
artificiais.
3.4 Modelo de Hopfield de uma rede neural 13
3.4.2 Observáveis
1 X
hOi = O · exp (−βH {Si }) , (3.12)
Z
{si }
Como o interesse é desenvolver métodos que nos permitam encontrar as equações de estado que
descrevem nossa rede neural, a qual esta em contato com um banho térmico de temperatura 1/β
(ensemble canônico). É conhecido que a conexão entre o ensemble canônico e a termodinâmica
se faz através da energia livre de Helmholtz
1
f (β) = − ln Z (3.14)
βN
que deve ser calculada no limite termodinâmico. O conhecimento da energia livre permite o
estabelecimento de todas as propriedades termodinâmicas do sistema sob consideração.
14 Modelagem de uma rede de neurônios
Capítulo 4
Obviamente, este tipo de procedimentos não são exatos mas sim muito uteis no calculo dos
exponentes criticos, diagramas de fase e outras propriedades termodinâmicas. Os exponentes
criticos, determinados por esta teoria, são mais precisos a medida que aumenta a dimensionali-
dade do sistema.
Resumindo, o objetivo da TCM é substituir todas as interações por um corpo com uma
interação média ou efetiva, às vezes chamada “campo molecular”.
Como as forcas de conexão sinápticas obedecem a regra de Hebb (3.2), é possível chegar a
seguinte identidade,
N p N
!2
X 1 X X µ
Jij Si Sj = ξ Si − p. (4.5)
i, j6=i
N µ=1 i=1 i
4.1 TCM - Limite de p finito 17
Introduzindo a equação obtida, linhas acima, na expressão da função de partição (4.4), temos
!2
p N p N
1 X X X X
Z (β, h) = e−βp/2 Tr exp β ξiµ Si + hµ Siµ .
s 2N µ=1 i=1 µ=1 i=1
µ
Fazendo uso da variável xµ = N −1
P
i ξi Si , e definindo-se os vetores p dimensionais ~x =
Pp µ ~ Pp hµ êµ , temos
µ=1 x êµ e h = µ=1
−βp/2 βN →
− 2 →
− → −
Z (β, h) = e Tr exp x + βN h · x . (4.6)
s 2
Para desacoplarmos os termos quadráticos na equação anterior, se usa um grão truque chamado
de identidade de Hubbard-Stratonovich[18], que é uma observação do resultado de uma integral
gaussiana,
p
+∞
dy µ √ →
Z
1→
exp →
− − − →
−
Y
a2 = 2
√ exp − y + 2 a · y . (4.7)
−∞ µ=1
2π 2
Assim, usando 4.7, é possível rescrever o termo quadrático em (4.6), na forma
Z +∞ Y p →−
dy µ y2
h →
−βp/2 − p → −
→
−
i
Z (β, h) = e Tr √ exp βN h + βN y · x · exp −
s −∞ µ=1 2π 2
Z +∞ Y p → −
dy µ h y2
→
−βp/2 − p → −
→
−
i
= e √ Tr exp βN h + βN y · x · exp − .
−∞ µ=1 2π s 2
Usando a definição de xµ , e tomando o traço sobre {Si }, apos inverter a ordem do traço com a
integral, temos
+∞ p N →−
dy µ Y h y2
→
− p → →
−
Z
−
Y i
−βp/2
Z (β, h) = e √ 2cosh βN h + βN y · ξ i /N · exp − .
−∞ µ=1
2π i=1
2
Nesta ultima expressão, é possível realizar facilmente o traço sobre os estados, devido a que
este pode-se escrever como um produto de N termos, cada um dependendo de um único Si com
diferente i.
√
Fazendo o reescalamento y µ → βN y µ , na expressão anterior, com o objetivo de garantir
a extensidade da energia livre, obtêm-se
p
Z +∞ Y ( N )
µ
dy →− →
− βN →
ln 2coshβ h + →
− −
X h i
Z (β, h) = (βN )p/2 e−βp/2 √ exp y · ξi − y2 .
−∞ µ=1 2π i=1
2
Enquanto p permanece finita, a integral sobre y é dominada por seu valor de ponto sela,
N
1 1 2 1 X h i
f (β, h) = − ln Z = ~y − ln 2 cosh β ~y + h · ξ~i .
~ (4.9)
Nβ 2 N β i=1
Das equações do método de ponto de sela, ∂f /∂y µ = 0, obtemos os valores de y µ que minimi-
zam o lado direito de (4.9),
N
1 X µ →
− →
− i
ξi tanh β →−
h
yµ = y + h · ξi . (4.10)
N i=1
No limite termodinâmico, no caso de p finito, os lados das equações (4.9), (4.10), apresentarão
a propriedade de automediancia. Ou seja, as somas N −1 i , produzirão uma media sobre a
P
→
−
distribuição de padrões aleatórios ξ , matematicamente;
N
1 X
(. . .) = hh. . .ii−
→.
ξ
(4.11)
N i=1
Com o objetivo de interpretar fisicamente o valor que o parâmetro de ordem xµ assume no ponto
de sela, calcula-se a media de ensemble das sobreposições a partir da sua definição:
** N
++
1 X
mµ = hSi iT ξiµ .
N i=1 −→
ξ
1
P
Como hSi iT = Z {Si } Si exp (−βH) é a media térmica de spin no sitio i. Conclui-se que
** N
! ++
1 X 1 X ∂f (β, h)
mµ = Si ξiµ exp (−βH) =− .
Z N i=1 −
→
∂hµ
{Si } ξ
→
−
y =→
−
m. (4.14)
4.2 TCM - Limite de α = p/N finito 19
→
−
m = m1 , m2 , . . . , mp
(4.15)
f (β) = lim ln Z(β, h) ξ
, (4.17)
N →∞ βN
20 Teoria de Campo Médio no modelo de Hopfield
onde hh. . .iiξ indica a media sobre o desordem quenched {ξiµ } . Para o calculo da energia livre,
é necessário determinar a média
Z
hhln Zii ≡ dJij P ({Jij }) ln [TrS exp (−βH)] , (4.18)
onde o símbolo TrS refere-se ao traço tomado sobre os N spins de Ising, como
N X
Y
TrS E ({Si }) ≡ E ({Si }) . (4.19)
i=1 Si =±1
A media hhln Zii tomada sobre a distribuição P ({Jij }) de todos os padrões binários aleató-
rios {ξiµ } fornece a media da energia livre sobre o desordem quenched. Estimando a média
4.18 corretamente, pode-se obter as quantidades médias das grandezas que queremos conhe-
cer. Desafortunadamente, é muito difícil calcular essa média diretamente, e ela não é idêntica a
ln hhZii[20].
Afortunadamente existe uma técnica, chamada de “método de réplica”, que nos permite
calcular a média de ln Z. Como a média de uma potência de Z é mais facilmente obtida, usa-se
o limite[24]
Zn − 1
ln Z = lim , (4.20)
n→0 n
que dá a energia livre por neurônio calculada sobre os padrões quenched na forma
DD EE
Z(β, n
−1
−1 h)
ξ
f (β) = lim lim . (4.21)
N →∞ n→0 βN n
Portanto, uma discussão central é a estimativa da média da função de partição n-replicada,
Z n , e esta é a ideia básica do método de réplica. A função de partição n-replicada, é dada
pelo produto de n funções de partição, correspondentes a n sistemas, ou replicas, idênticas ao
sistema original
!
n
Y n
Y n
X
Zn = Z({S a }) = Tr exp (−βHa ) = Tr exp −β Ha . (4.22)
i
a=1 a=1 {Sia } {Sia } a=1
Tendo em conta que faremos uma media sobre s padrões ξ’s discretos e uma media sobre
um numero de padrões infinitos, p−s, eventualmente, gaussiano. Seguimos os seguintes passos
√
1. Integrando os yaµ ’s presentes em L1 , e apos o reescalonamento yaν → N βyaν , temos
p
n
Z Y Z Y N
!
Y h p i Y 1 X a b
L1 = dqab exp − Tr [ln ((1 − β) I − βQ)] × δ qab − S S
a=1 µ=s+1 a6=b
2 a6=b
N i=1 i i
Z Y Z Y h p i
= drab dqab exp − Tr [ln ((1 − β) I − βQ)]
a6=b a6=b
2
" n N
!#
N αβ 2 X 1 X a b
× exp − rab qab − S S (4.28)
2 a6=b N i=1 i i
Para finalizarmos os cálculos nos dois primeiros passos, foi preciso usar a equação de
Hubbart-Stratonovich duas vezes e uma das propriedade da Delta de Dirac, os quais
permitiram a introdução de três novas variáveis yaν , qab e rab chamadas “parâmetros de
ordem”.
22 Teoria de Campo Médio no modelo de Hopfield
1. Ao introduzir o resultado obtido em 4.28 na equação 4.25 e tendo em conta o fato de que
a media quenched sobre o número finito de ξ ν ’s pode ser efetuada pela automedianca,
devido a que N → ∞, encontra-se
Z Y Z Y
n ν
hhZ ii ∝ dya dqab drab exp [−N βF (yaν , qab , rab )] (4.29)
νa a6=b
onde
n s n
αn 1 X X ν 2 αβ X α
F = + (ya ) + rab qab + Tr [ln ((1 − β) I − βQ)]
2 2 a=1 ν=1 2 a6=b 2β
** " n n X s
!#++
1 αβ 2 X X
− ln Tr exp rab S a S b + β (yaν + hν ) ξ ν S a ,
(4.30)
β Sa 2 a6=b a=1 ν=1 {ξ ν }
onde F (yaν , qab , rab ), dada pela equação 4.30, devera ser mínima.
A aplicação do método de Laplace pressupõe que a inversão na ordem dos limites em N e n
é licita, pois a principio deve-se calcula o limite n → 0 antes de avaliar o limite no numero de
4.2 TCM - Limite de α = p/N finito 23
partículas N . Dita proposição, usada nos trabalhos de Sherrington e Kirkpatrick, foi analisada
em 1979 por Van Hemmen e Palmer [31], que concluíram que, ao menos no modelo SK, não
existe problema em trocar a ordem dos limites.
A densidade de energia livre, f , é dada então por
n s n
α 1 X X ν 2 αβ X
f = limn→0 Fn = + (y ) + rab qab
2 2n a=1 ν=1 a 2n a6=b
α 1
+ Tr [ln ((1 − β) I − βQ)] − hhln Z0 ii{ξν } (4.33)
2βn βn
onde o operador Z0 , é dado por
" n n X s
!#
αβ 2 X X
Z0 = Tr exp rab S a S b + β (yaν + hν ) ξ ν S a , (4.34)
Sa 2 a6=b a=1 ν=1
ou seja, ** ++
N
1 X ν a
mνa = ξ hS i , (4.36)
N i=1 i i T
{ } ξiµ
que na imagem da réplica caracteriza as correlações causadas pela igualdade de padrões quen-
ched entre duas réplicas termicamente independentes. Ao fazermos ∂ hhZ n ii /∂qab = 0, identifica-
se o multiplicador de lagrange rab , dado por
p
1 X
rab = hhmµa mµb ii{ξµ } , (4.38)
α µ=s+1 i
que é o parâmetro de ordem que descreve o ruido devido aos padrões não condensados (não
recuperados). Em outras palavras, se a rede estiver em um estado com grandes sobreposições
(macroscópicas) com alguns dos padrões memorizados (condensados), o acúmulo das sobrepo-
sições aleatórias com todos os outros padrões cria uma quantidade significativa de ruído.
Para realizar o calculo do limite n → 0 na equação 4.33, que representa a densidade de ener-
gia livre, é necessário considerarmos algum tipo de condição inicial sobre a estrutura de mνa , rab
e qab . Além disso, a introdução destas variáveis, apenas como uma abstrata manipulação algé-
brica, torna possível o calculo da energia livre, sem permitir entretanto a analise termodinâmica
do modelo, que só é possível se estas variáveis possuírem algum sentido físico.
A maior parte da discussão de AGS foi realizada dentro da teoria de simétrica de réplicas,
condição inicialmente adotada por Sherrington e Kikpatrick[29]. Na “simetria de replica” se
assume, como uma primeira aproximação, só um pequeno subconjunto dos parâmetros varia-
cionais (yaν , qab , rab ) no qual, a todas as replicas ou pares de replicas, respectivamente, se lhes
atribui os mesmos valores dos parâmetros. Em outras palavras, se assume que cada parâmetro
de ordem é simétrico sob uma permutação de índices de réplica como
mνa = mν ,
qab = q, a 6= b,
rab = r. a 6= b, (4.39)
pelo que é possível minimizar a densidade de energia livre, f , usando apenas estos três
parâmetros de ordem. Aliais agora é mais fácil calcular Tr [ln ((1 − β) I − βQ)], pois a matriz
4.2 TCM - Limite de α = p/N finito 25
s
α 1 X ν 2 αβ α βq
fRS = + (m ) + r (1 − q) + ln (1 − β + βq) −
2 2 ν=1 2 2β 1 − β + βq
** " s
!#++
1 √ X
− ln 2 cosh β z αr + (mνa + hν ) ξ ν (4.40)
β ν=1 z
2
onde hh. . .iiz ≡ √2π exp − z2 hh. . .ii{ξν } representa uma media dupla: sobre os padrões
R dz
Todas as soluções de fRS , incluindo o mínimo local, são estados estacionários do processo
dinâmico, com barreiras de O (N ). Fazendo a variação de fRS com respeito a y ν , q e r, obtêm-
se às equações para estado estacionário. Assim, depois de fazer uma integração por partes,
temos:
** s
!++
ν ν
√ X
m = ξ tanh β z αr + (mν + hν ) ξ ν (4.41)
ν=1 z
q
r = (4.42)
(1 − β + βq)2
** s
!++
√ X
q = tanh2 β z αr + (mν + hν ) ξ ν (4.43)
ν=1 z
ν
onde a media hh. . .iiz refere-se á media combinada sobre os ξ ’s e sobre o ruido gaussiano dado
R +∞ 2
pelo operador integral −∞ √dz2π exp − z2 . Aqui notamos que, no pontos de sela, o valor dos
parâmetros dados pelas eqs. (4.41)-(4.43) tem apenas os significados físicos definidos nas eqs.
4.36-4.38, respetivamente.
Note-se que o campo local (vide o argumento das funções) consiste de três partes; uma
parte “ferromagnética”,→
−
m, que resulta das sobreposições condensadas, uma parte “vidro de
26 Teoria de Campo Médio no modelo de Hopfield
√
spin”, z αr, gerada pela soma das sobreposições com o resto de padrões e uma parte “campo
externo", originada pelo agente externo ao sistema.
→
−
As equações (4.41) - (4.43), quando h = 0 tem dois tipos de soluções que são localmente
estáveis para variações em →
−
m, q e r.
4.3 Soluções em T → 0
e que
r
x2
Z
dz 2 1 2
√ e−z /2 tanh2 β (A z + x) → 1 − exp − 2 . (4.45)
2π βA π 2A
Observe-se que a equação 4.44 foi reescrita usando a função erro, erf (x), definida por
Z x
2
dz exp −z 2 .
erf (x) = √ (4.46)
π 0
Introduzindo estas aproximações, quando T → 0, nas equações (4.41) e 4.43, obtemos
m+h
m ' erf √ (4.47)
2αr
" !#
(m + h)2
r
1 2
q ' 1− exp − . (4.48)
β παr 2αr
r [1 − β (1 − q)]2 = q
!!2 " !#0
:
2
(m + h)2
r r
2 1 2 (m
+
h)
r 1− exp − = 1− exp
−
παr 2αr β παr 2αr
" !#!2
(m + h)2
r
2
r 1− exp − ' 1.
παr 2αr
√ √
Ao fazer a seguinte substituição algébrica m = y 2αr e h = h0 2αr na equação anterior e
em (4.47), tem-se, respetivamente
r
√ 2
2
r− exp − (y + h0 ) ' 1. (4.49)
πα
√
y 2αr = erf (y + h0 ) . (4.50)
√
Isolando r em (4.50) e substituindo em (4.50), temos
" #
√
r
2
2
y 2α 1 + exp − (y + h0 ) = erf (y + h0 ) .
πα
Que representa a equação para a magnetização na presença de campos externos. Esta equação
proporciona a dependência da qualidade de recuperação m e o nível de armazenamento α e h.
quando T → 0. A capacidade de armazenamento é simplesmente o valor de α acima do qual a
equação não tem solução, exceto y = 0.
No caso de campo externo nulo, a equação 4.51 se reduz a uma simples equação para a variável
√
y = m/ 2αr, ou seja
erf (y)
y=√ . (4.52)
2α + √2 exp (−y 2 )
π
A solução gráfica de 4.52, mostra-se na figura 4.3. Graficamente, uma solução da equação
y = φ (y) é a abscissa do ponto de intersecção da reta z = y e da curva z = φ (y). Na
figura 4.3 se mostra o gráfico da linha reta do lado esquerdo e da curva do lado direito, plotada
para dois valores de α, um acima e outro abaixo de αC = 0.138. Para α < αC , temos três
interseções, o vidro de spin com m = 0 e os estados de recuperação ferromagnética com m
alto, são dinamicamente estáveis e também mínimos de energia. Quando α > αC , somente
a interseção m = 0 persiste. Esta figura torna intuitivamente claro que o desaparecimento
da solução de recuperação ocorre abruptamente. um resultado obtido mediante uma solução
numérica da equação 4.52.
4.3 Soluções em T → 0 29
onde {ηi } é uma configuração de rede, não correlacionada com qualquer um dos {ξi } padrões
que estão embutidos nos acoplamentos Jij , então para valores finitos de p (α = 0) há um estado
metaestável em T = 0, com {Si = ηi }, para h arbitrário. No entanto, assim que α se torna
finito, a sobreposição deste estado metaestável com {ηi } diminui muito acentuadamente. A
potencial utilidade de um campo acoplado a um padrão memorizado, está no fato de que a
sobreposição do estado FM, condensado nesse padrão, permanece alto mesmo quando α não é
muito pequena.
As equações para a magnetização são derivadas, neste caso, pelo procedimento descrito nas
Seções (4.2), exceto que agora todos os ξ’s são calculados na transição da Eq. (4.26) a (4.28).
O resultado é,
h
m = erf (4.54)
x
√
ex= 2αr é determinada por
√ √ 2 2
x= 2α + 2/ π e−h /x . (4.55)
Para α pequeno, a eq. (4.55) tem duas soluções estáveis, em um dos quais x é muito pequeno
e, portanto, m ' 1.
Para α pequeno, a eq. 6.7 tem duas soluções estáveis, em um dos quais x é muito pequeno
e, portanto, m ' 1. No entanto, este estado desaparece descontinuamente com um valor de
α = α∗(h) que é muito menor que αC (h), (por exemplo, α∗(0.3) = 0.008 e α∗(0.5) = 0.027)
. Curvas de m vs α para o caso de uma configuração aleatória são mostradas na fig. 5 para
h = 0.3 e 0.5.
Deve-se perceber que o aumento no valor de αC , descrito acima, se aplica apenas ao padrão
marcado: o acoplado com h. De fato, a presença de h em um padrão produz ruído aleatório
para os outros padrões. Isso resulta em uma redução no valor de αC , para os outros padrões,
como é representado pela curva tracejada na Fig. 4.
30 Teoria de Campo Médio no modelo de Hopfield
5.1 Introdução
Uma das primeiras questões que vem a mente é sobre a capacidade de armazenamento das
RNA’s estudadas, ou seja a quantidade de informação que pode ser armazenada e efetivamente
recuperada pela rede.
Si hi > 0 (i = 1, 2, . . . , N ) , (5.1)
ou seja, os campos locais hi (I µ ) devem estar alinhados ao longo da direção de ξiµ para cada
neurônio i. Então, a influência coerente de todos os neurônios tende a realinhar uma única
unidade mal orientada. Seja I = {σi } um estado da rede. O campo local em i, com Jij
obedecendo a regra de Hebb para p padrões apreendidos, é escrito como
p
N N
!
X X 1 X µ µ
hi (I) = Jij Sj (I) = ξ ξ Sj (I)
j6=i j6=i
N µ=1 i j
p p
N
!
X 1 X X
= Sj (I) ξjµ ξiµ = M µ (I) (5.2)
µ=1
N j6=i µ=1
o que mostra que cada padrão I µ contribui para o campo local com uma quantidade que é pro-
porcional à sua sobreposição com o estado de execução I. Assumindo agora que a rede está
no estado I = I ν , Si = ξiν , ∨i. A soma dos campos na eq. 5.2 é decomposto em uma contri-
buição coerente decorrente da aprendizagem de I ν e uma contribuição incoerente resultante da
aprendizagem de todos os outros padrões I µ , µ 6= ν:
N p N
1 X ν ν ν 1 X X µ µ ν
hi (I ν ) = ξi ξj ξj + ξ ξ ξ
N j6=i N µ6=µ j6=i i j j
0
Np
N −1 ν 1 XX
= ξi + ξiµ ξjµ ξjν (5.3)
N N µ6=ν j6=i
Então, da equação 5.1, podemos dizer que o estado Si ≡ ξiν é estável se o parâmetro estabilidade
normalizado (I ν ) é positivo, 4νi > 0, em qualquer sitio i.
Da definição 5.4 e usando as forcas de conexão 3.8, aproxima-se o denominador de norma-
p
lização com sua media p (N − 1) /N 2 que sera exata se N → ∞, temos
s
p N
N −1 1 X X
ν
4i = +p ξiµ ξiν ξjµ ξjν . (5.5)
p (N − 1) p µ6=ν j6=i
5.3 Capacidade de armazenamento para α = p/N finito 33
A soma sobre µ, foi separada em duas partes. O primeiro termo, com µ = ν, chamado de si-
nal normalizado, corresponde ao padrão cuja estabilidade está sendo investigada, já o segundo
termo, denominado ruido normalizado, inclui a contribuição de todos os outros padrões arma-
zenados. Se o termo “ruido” for comparável ao termo “sinal”, o estado ξiν sera desestabilizado.
Na literatura, se disse que dois padrões são ortogonais se sua sobreposição desaparece, ou
seja
1 X µ ν
M µν = ξ ξ = 0. (5.6)
N µ i i
Se todos os padrões armazenados no sistema fossem ortogonais, o termo de ruido da equação 5.3
desaparece e uma boa estabilidade é alcançada para todos os padrões memorizados, pois nessa
situação (em linguagem magnética) todo spin sentira um campo interno ao longo da direção
que ele já aponta, então (a temperatura zero) ele nunca mudara sua orientação. No entanto, não
é possível que mais de p = N padrões sejam ortogonais e a capacidade máxima de memória
ainda seja limitada a N .
O termo ruído contém uma soma de (N − 1) (p − 1) bits aleatórios de +1 e −1. Como os bits
de padrões diferentes no mesmo sitio e os bits dos mesmos padrões em sítios diferentes não
são correlacionados, a soma de estos bits no termo de ruído é equivalente a uma “Caminhada
aleatória” unidimensional de (N − 1) (p − 1) passos de tamanho unidade. Em tal caminhada,
são feitas medidas para a frente e para trás. A soma, o ponto final da caminhada, sera uma
p
variável aleatória que irá flutuar em torno de zero e cuja dispersão sera de (N − 1) (p − 1).
Então, com o fator na frente da soma aleatória, para N 1 e p 1, obtemos
s
N
4νi ≈ +z (5.7)
p
sendo z uma variável aleatória Gaussiana de media zero e dispersão unitária. A probabilidade
de que 4νi seja negativa, ou seja que o padrão ξiν se desestabilize é igual à probabilidade do
34 Analise de Ruido Gaussiano
q
N
termo ruido normalizado z ultrapasse o termo de sinal p
. Este é dado por
" s # q q
N N
Z − Z −
N p 1 p
[4νi √ exp −z 2 /2 dz
P < 0] = P z < − = P (z) dz =
p −∞ −∞ 2π
Z qN " s !#
1 1 p 1 N
exp −z 2 /2 dz =
= −√ 1 − erf , (5.8)
2 2π 0 2 2p
Rx 2
onde erf (x) = √2π 0 e−t dt é a função de erro complementar[1] e
p
α≡ . (5.9)
N
Considerando a variância de hνi , ∆2 ≡ hh2i i − hhi i2 ≈ p/N , como variável (vide eq. 5.3), na
equação 5.8, temos
Z 1/√x
1 1
exp −z 2 /2 dz
P (x) = − √ (5.10)
2 2π 0
Para x pequeno, a função P (x), é linear em x na vizinhança de x1 = 1/3, o ponto de inflexão.
Ele pode ser aproximado (vide fig. 5.1) por uma linha reta passando por x1 ,P (x1 ) = 0.042 de
3 3/2 ∼
| = √1π 2e
inclinação dP
dx x1 = 0.2313, que cruza o eixo x em x0 = 0.153. Para x < x0 ,
P (x) ' 0[15]. Depois do ponto de cruzamento em 0.153, errores na recuperação são esperados.
O numero máximo de padrões q podem ser aprendidos antes dos erros na recuperação tornar-
se importantes é portanto p = 0.153N , em excelente acordo com resultados teóricos [9] e
numéricos [17, 26] (α = 0.145 ± 0.009). A prescrição para capacidade de armazenamento
máximo é então
αC ≡ 0.153. (5.11)
Considera-se que 4νi e 4νj são variáveis aleatórias independentes para i 6= j. De fato,
elas são somas de termos independentes (vide a eq. 5.5), além do termo Jij ξiν ξjν que é comum
para os dois. No entanto, para um modelo com conectividade macroscópica, em que cada spin
(ou neurônio) esta conectado a infinitamente muitos outros quando N → ∞, a contribuição
desse único termo é insignificante em relação aos muitos outros termos independentes. Usando
essa independência, a probabilidade, P0 , de que todos os estados armazenados sejam estáveis
(nenhum erro) é dada por
r N
p N
P0 = 1− exp − (5.12)
2N π 2p
Se desejamos que esta probabilidade P0 seja próxima de 1, P [4νi < 0] sera da ordem de 0 e a
função erf, em consequência, da ordem de 1. O argumento da função de erro deve, portanto, ser
grande e a seguinte expansão assintótica pode ser usada:
1
erf (x) ' 1 − √ exp −x2 .
x π
Assim, da eq. 5.12, temos
" s !!#N r N
1 N p N
P0 = 1 + erf ' 1− exp − . (5.13)
2 2p 2N π 2p
Tomando o logaritmo dos dois lados desta equação e usando a expansão ln (1 − x) ' −x para
x’s pequenos, encontra-se uma equação implícita para α
r
α 1 −1
exp − = ln P0 . (5.14)
2π 2α N
Toma-se novamente o logaritmo da equação anterior, depois de elevar ao quadrado ambos os
membros, obtemos
N N
= ln 2π (ln P0 )2 .
2 ln N − − ln (5.15)
p p
Observa-se das simulações numéricas que, o valor de α é praticamente invariável quando P0
esta entre 0.1 e 0.9, ou seja o lado direito permanece finito. Quando N → ∞, o ultimo termo
do lado esquerdo da equação é insignificante, por tanto 1/α devera variar como 2 ln N , para
satisfazer o requisito de finitude[32]. Obtendo-se assim o limite superior, abaixo do qual o
requisito é cumprido
1
α≤ . (5.16)
2 ln N
Além disso, é necessário ter em conta uma degeneração fundamental da rede, a saber:
36 Analise de Ruido Gaussiano
Esta é uma propriedade das redes neurais conectadas através de interações quadráticas. Cu-
riosamente, isto permanece válido mesmo quando as interações Jij não são simétricas.
Finalmente, o número máximo pC de padrões aleatórios independentes que uma rede Heb-
biana pode armazenar e recuperar sem nenhum erro é
N
pC = . (5.17)
4 ln N
Modelo Curado-Nobre
“Toda pergunta é um grito para entender o mundo. Não existe isso de pergunta idiota.”
– Carl Sagan.
6.1 O modelo
O campo externo, assim definido, indicara uma porcentagem de exatidão, γ%, com o padrão
marcadoθ. Ou seja γ, pode-se interpretar como uma perturbação do padrão armazenado, θ.
O parâmetro κ sera escolhido com objetivo de zerar o ruido resultante da sobreposição dos
outros padrões armazenados com o padrão marcadoθ, permitindo assim uma recuperação quase
perfeita do padrão marcado mesmo com γ, grande.
O campo molecular total, que atua sobre o neurônio i, no modelo Curado-Nobre, com Jij
6.1 O modelo 39
Assumindo agora que a rede esta no estado I = I θ , Si = ξiθ , ∨i. Fazemos a decomposição
coerente e incoerente da soma dos campos na equação 6.3, obtendo:
N p N N
1 X θ θ θ 1 X X µ µ θ X
hi (Iη ) = ξ ξ ξ + ξ ξ ξ + κηi
N j6=i i j j N µ6=θ j6=i i j j i=1
p N N
N −1 θ 1 XX µ µ θ X
= ξi + ξi ξj ξj + κηi . (6.4)
N N µ6=ν j6=i i=1
O nosso objetivo é encontrar um valor adequado para κ que permita anular o segundo termo do
lado direito da equação anterior. Ou seja, tenta-se anular o ruido gerado pela sobreposição do
padrão marcado, com os outros padrões armazenados usando o termo adicional.
Se adicionamos o campo externo 6.1 ao Hamiltoniano de Hopfield, obtêm-se
p s N N
1 XX µ µ X
ν
X
ν
X
H = − ξi ξj Si Sj − h ξi Si − κηi Si ,
N µ=1 ν=1 i=1 i=1
(ij)
o qual representara a energia do nosso modelo. Seguindo as mesmas ideias mostradas nos
capítulos anteriores, é possível estudar as características em T = 0 que tera o nosso modelo.
onde
" N n X s n
!#
αβ 2 X a b
X
ν ν ν a
X
Z0 = Tr exp rab S S + β (ya + h ) ξ S + βκ ηS a . (6.5)
Sa 2 a6=b a=1 ν=1 a=1
40 Modelo Curado-Nobre
Observe-se que é necessário tomar primeiramente uma media em η devido a que sua distribuição
de probabilidades P (η), depende de ξ θ . A media hh. . .ii refere-se á media combinada sobre os
R +∞ dz 2
ξ ’s e sob o ruido gaussiano dado pelo operador integral −∞ 2π exp − z2 .
ν √
Para obter as equações de campo médio, calcula-se a variação de fRS com respeito a mν , q e r.
Ao fazer o calculo das derivadas parciais de fRS , obtemos as equações de ponto sela;
mν = γ ξ ν tanh β Ξ + κξ θ + (1 − γ) ξ ν tanh β Ξ − κξ θ
(6.6)
q
r = (6.7)
(1 − β + βq)2
q = γ tanh2 β Ξ + κξ θ + (1 − γ) tanh2 β Ξ − κξ θ
(6.8)
√ →
− →
−
onde Ξ = z αr + →−
m+ h · ξ.
6.1.3 Soluções em T → 0
Agora indo ao núcleo da teoria AGS em T → 0. Tratamos com a solução para a chamada
“fase
1 ν = θ
ν
de recuperação ferromagnética (FMR)”, correspondente ao caso em que m ∼
0 ν 6= θ
→
−
(nos representaremos ele como m). Analisando no limite de T → 0 e considerando h = 0,
reescreve-se as medias envolvidas no calculo de m, q e r nas equações eqs. (6.6)-(6.8) (vide
apêndice (??)). Obtendo-se
m+κ m−κ
m = γerf √ + (1 − γ) erf √ (6.9)
2αr 2αr
q
r = (6.10)
(1 − β + βq)2
" ! !#
(m + κ)2 (m − κ)2
r
1 2
q = 1− γ exp − + (1 − γ) exp − . (6.11)
β παr 2αr 2αr
6.1 O modelo 41
Apos tomar a raiz quadrada em ambos lados da equação anterior e usando a equação (6.9),
chegamos as equações para o modelo Curado–Nobre, no caso do reconhecimento de um padrão
γ% diferente do armazenado;
γerf (y + κ0 ) + (1 − γ) erf (y − κ0 )
y = √
√2 γ exp − (y + κ0 )2 + (1 − γ) exp − (y − κ0 )2
,
2α + π
m = γerf (y + κ0 ) + (1 − γ) erf (y − κ0 ) , (6.13)
√ √
onde m = y 2αr e κ = κ0 2αr.
Partindo da equação (6.13), é possível obter equações já conhecidas na literatura.
Ao fazermos γ = 1, é possível obter as equações no caso do reconhecimento de um padrão
previamente armazenado,
erf (y + κ0 )
y = √ ,
2α + √2π exp − (y + κ0 )2
m = erf (y + κ0 ) . (6.14)
erf (κ0 )
y = √ 2 ,
2α + √2 exp − (κ0 )
π
m = erf (κ0 ) .
Resultados e Discussões
“Toda pergunta é um grito para entender o mundo. Não existe isso de pergunta idiota.”
– Carl Sagan.
O programa usado para a resolução do sistema de equações não lineares em cada situação
foi o Maple XV. Verificou-se que a solução numérica de um sistema de equações não lineares,
não é algo tão trivial. Apos tentar criar um programa que automatize a obtenção das soluções
positivas do sistema de equações, encontrou-se regiões onde o Maple não conseguia obter mais
que uma solução ou se encontravam soluções sem sentido, sendo que na literatura mostrava-
se duas soluções[4]. Apos analise teste-erro, chegou-se a conclusão que o melhor jeito de
resolver o sistema de equações não lineares, é reescrevendo-as, usando uma variável auxiliar x
√
e separando o numerador (m) e o denominador 2αr da equação obtida para y. Assim, as
equações trabalhadas no Maple, serão
armazenado:
" 2 ! 2 !#
√
2 m+κ m−κ
x = 2α + √ γ exp − + (1 − γ) exp − ,
π x x
m+κ m−κ
m = γerf + (1 − γ) erf . (7.1)
x x
parâmetro γ, se α for superior a 0.5, observa-se que κC desaparece e somente temos recuperação
para κ grande. Termos γ = 0.74 como um limitante, significa que o padrão ηi pode ser somente
36 diferente do padrão marcado ξ θ , para obtermos um valor de κC .
Já nas figuras ??,?? e ?? observamos que os valores de κC aumentam a medida que o
parâmetroα cresce desde 0.5 a 1.0 e diminuem quando o parâmetroγ aumenta de 0.74 a 1.0.
Resulta interessante notar, das figuras obtidas, que mesmo para α = 1.0, ou seja mesma
quantidade de padrões armazenados que neurônios no sistema, consegue-se uma recuperação
perfeita do padrão armazenado mediante uma escolha adequada de κC . Isto pode ser verificado
mediante simulações computacionais.
46 Resultados e Discussões
Capítulo 8
Essa rede funciona como uma memória associativa: definindo a rede em um padrão ξ µ (ou
próximo a ξ µ ), ela relaxa sob uma dinâmica apropriada em direção a um estado estacionário
próximo.
Ao longo do paper, nós assumiremos que o sistema evolui, obedecendo a dinâmica de Glau-
ber para redes sem ruído, ou seja
Essa magnetização, pode ser calculada em alguns casos, usando o método de réplicas.
Neste informe, estudamos as redes neuronais, sob uma perspetiva diferente. Na secção 8.2
descrevemos um novo modelo de rede neuronal. Nos calculamos, mediante o método de ré-
plicas, a magnetização do sistema e procuramos um valor ótimo de κ que permita otimizar o
reconhecimento. Na secção 9.2, usando simulações Monte Carlo do modelo RNED nós calcu-
lamos diferentes magnetizações como uma função de κ, para os casos em que o sistema tem
padrões armazenados descorrelacionados e correlacionados.
Esse termo aponta diretamente para um padrão marcado η, beneficiando seu reconhecimento.
κ, é um parâmetro auto regulável e representa o esforço do cérebro em reduzir o ruído presente
8.2 O Modelo RNED 49
O sistema evoluirá obedecendo (8.5), mas com esse novo campo molecular.
Assumindo que a rede está no estado de equilíbrio Si = ξiθ , ∨i, com Jij , fazemos a decompo-
sição coerente e incoerente da soma dos campos na equação (8.9), obtendo-se:
p N N
N −1 θ 1 XX µ µ θ X
hi = ξi + ξi ξj ξj + κηi . (8.11)
N N µ6=ν j6=i i=1
Na equação anterior, o primeiro termo do lado direito (sinal), que representa o valor dese-
jado para o campo molecular hi é idêntico a unidade. O segundo termo (ruído), no caso de
padrões não correlacionados, contém uma soma de (N − 1) (p − 1) termos aleatórios, cada
um dando uma contribuição +1 ou −1 para a soma. Este é o famoso problema do passeio
aleatório e o resultado é que o ruído é uma variável aleatória Gaussiana com uma dispersão
1
p
N
(N − 1) (p − 1) ≈ α. Como desejamos que o campo externo (terceiro termo) anule o
√
ruído, basta escolher κ = α.
1
f =− hln [Tr exp (−βH)]iξ , (8.12)
βN
50 RNED totalmente conectado
com auxílio do método de réplicas. h. . .iξ indica a média sobre o desordem temperado {ξiµ }.
Seguindo os passos de Amit et al. [5], a energia livre temperada pode-se expressar em termos
dos seguintes parâmetros de ordem:
** s
!+ +
ν ν
√ X
ν ν
m = ξ tanh z αr + m ξ + κη
ν=1 η z
** s
!+ +
√ X
q = tanh2 z αr + mν ξ ν + κη
ν=1 η z
q
r = . (8.17)
(1 − β + βq)2
8.2 O Modelo RNED 51
8.2.4 Soluções em T = 0
Agora vamos ao limite de temperatura zero (T = 0). Trataremos com a solução da chamada
fase de recuperação ferromagnética correspondente ao caso ν = 1 e m1 ∼ 1 (que representa-
remos com m). No limite T = 0 ou β → ∞, temos
m+κ m−κ
m = γerf √ + (1 − γ) erf √ (8.18)
2αr 2αr
onde, r = (1 − C)−2 , e
( " # " #)
(m + κ)2 (m − κ)2
r
2
C= γ exp − + (1 − γ) exp − (8.19)
παr 2αr 2αr
√ √
Usando convenientemente as variáveis m = y 2αr e κ = x 2αr para reescrever as equa-
ções anteriores, obtém-se
γerf (y + x) + (1 − γ) erf (y − x)
y = √ 2 2 ,
2α + √2π γe−(y+x) + + (1 − γ) e−(y−x)
erf (y + x)
y = √ 2,
2α + √2π e−(y+x)
m = erf (y + x) . (8.21)
erf (x)
y = √ ,
2α + √2π e−x2
m = erf (x) . (8.22)
52 RNED totalmente conectado
Capítulo 9
RNED diluído
9.1 Modelo
Neste resumo, nós procuramos um valor aproximado de κ para uma versão diluída não simétrica
do modelo de Hopfield totalmente conectado. O modelo consiste de um sistema de N spins de
Ising σi = ±1, cujas interações Jij dependem de p padrões armazenados. No modelo de Derrida
o acople sináptico Jij é dado por
p
Cij X µ µ
Jij = ξ ξ , (9.1)
N d µ=1 i j
onde ξiµ (= ±1) é o valor do padrão µ no sitio i e os Cij , que obedecem a seguinte distribuição
dois casos extremos. Uma é a rede densa, onde d é de O (1) quando N → ∞. Neste caso, cada
neurônio recebe entradas dos N vizinhos. O outro limite é a rede diluída, onde d é de O (1/N ),
em cujo caso cada neurônio recebe entradas de apenas um número finito de vizinhos. Aqui
vamos discutir apenas o limite denso.
Para entender o efeito da diluição, considera-se que em cada sitio i, o campo hi (t) é dado por
N
X
hi (t) = Jij σj (t) (9.3)
j6=i
Si hi > 0. (9.4)
Ou seja, o campo molecular deve ter o mesmo sinal que o valor local do spin. Substituindo ξ ν
por S e com ajuda da equação (9.3), encontra-se
N X p
X Cij µ µ ν
hi = ξi ξj ξj
j6=i µ=1
N d
N N p
X Cij µ µ µ X X Cij µ µ ν
= ξi ξj ξj + ξi ξj ξj
j6=i
N d j6=i µ6=ν
N d
N N p
X Cij µ X X Cij µ µ ν
= ξ + ξ ξ ξ
j6=i
Nd i j6=i µ6=ν
Nd i j j
= S+R
onde a soma sobre µ foi separada em um termo sinal (S) induzido pelo padrão µ = ν e o termo
de ruído (R) µ 6= ν.
Calcula-se a seguir os dois primeiros momentos da variável aleatória R. Para o cálculo de
hRi, usando ξiµ ξjµ ξjν {ξ } = ξiν δµν , obtemos
j
N p
1 XX
hCij i ξiµ ξjµ ξjν {ξ }
hRi =
N d j6=i µ6=ν j
N p
1 XX
= hCij i ξiν δµν
N d j6=i µ6=ν
= 0
9.1 Modelo 55
reescreve-se a equação para hR2 i, separando o terceiro somatório para os casos em que k = j e
k 6= j. Temos assim
N p p N p N p
1 X X X
2
µ µ ν σ σ ν 1 XX X X
2
hCij Cik i ξiµ ξjµ ξjν ξiσ ξkσ ξkν
R = 2 2
Cij ξi ξj ξj ξi ξj ξj {ξ } , + 2 2
N d j6=i µ6=ν σ6=ν j N d j6=i µ6=ν k6=i, j σ6=ν
N p p N p N p
1 XXX
2 µ σ 1 XX X X
µ µ ν
= C ξ ξ δµσ , + hC ij C ik i ξi ξj ξj {ξ } hξiσ ξkσ ξkν i{ξk }
N 2 d2 j6=i µ6=ν σ6=ν ij i i N 2 d2 j6=i µ6=ν k6=i, j σ6=ν j
p p p p p
N N X
! N X
1 XX
2 µ 2 X X hCij i
µ µ ν X X hCik i σ σ ν
= C ij (ξ i ) + ξi ξj ξj {ξj }
hξi ξk ξk i{ξ
N 2 d2 j6=i µ6=ν j6=i µ6=ν σ6=ν
N d k6=i, j µ6=ν σ6=ν
N d
p p p p p
N N
! N
!
1 XX
2 X X X hCij i X X X hCik i
= C + ξiν δµν ξiν δσν
N 2 d2 j6=i µ6=ν ij j6=i µ6=ν σ6=ν
N d k6=i, j µ6=ν σ6=ν
N d
N p Z N p
1 XX 2
XX 1
= C ij P (C ij ) dC ij =
N 2 d2 j6=i µ6=ν j6=i µ6=ν
N 2d
(N − 1) (p − 1)
=
N 2d
(N − 1) (p − 1)
σR2 = R2 − hRi2 =
(9.9)
N 2d
onde
N
X N
X
hi = Jij Sj + κηi . (9.13)
j6=i i=1
permitem que o terceiro termo da equação (9.13) seja muito superior aos termos de sinal e
ruído, forçando o alinhamento do sistema com qualquer padrão η associado ao κ, evitando-se o
reconhecimento.
A seguir estudamos sistemas RNED no qual todos os padrões armazenados estão descorrelaci-
onados.
Cálculo do parâmetro κC
Nas figuras 9.2, 9.3 e 9.4 mostra-se os gráficos mθ (κ), m⊥ (κ) e ∆m (κ), para γ = 0.8, γ = 0.9
e γ = 1.0, respetivamente. Observamos que os valores de κC aumentam a medida que o
parâmetro α cresce de 0.5 a 1.0 e diminuem quando o parâmetro γ aumenta de 0.8 a 1.0. Esse é
um comportamento esperado dado que, quando o número de padrões armazenados α cresce, o
ruído no sistema aumenta e em consequência κC deve crescer. No caso de γ aumentar, o ruído
do sistema diminui, pois o padrão que se tenta recuperar é mais próximo do padrão armazenado
ξ θ , consequentemente κC diminui. Esses comportamentos de κC , são mais difíceis de apreciar
quando γ = 0.8 devido a que esses valores estão muito próximos entre si e o erro numérico não
permite distingui-los.
Na figura 9.1, apresenta-se o gráfico de mθ , m⊥ e ∆m como função de κ, para γ = 0.74
com diferentes valores de α. Esse valor de γ será um limitante, pois não se aprecia um valor
de κC para quase nenhum α. Isto significa que o padrão η pode ser somente 36% diferente do
padrão marcado ξ θ , para obtermos um valor de κC .
√
Pode-se observar a partir das figuras obtidas, que a escolha κC = α é uma boa primeira
aproximação para κC . Note-se também, que mesmo para α = 1.0, ou seja mesma quantidade
de padrões armazenados que neurônios no sistema, consegue-se uma recuperação otimizada do
padrão armazenado mediante uma escolha adequada de κC .
Nos primeiros 50 mil passos MC, com κ = 0, o sistema não consegue reconhecer nenhum
padrão armazenado pois α 0.14. Isso significa que o sistema não ocupa nenhum volume no
espaço de fase. Nos próximos 50 mil passos, ao fazermos η = ξ θ com γ = 0.3, ou seja com
40% de spins girados, o sistema consegue reconhecer o padrão armazenado ξ θ . Note-se que,
apos o relaxamento, para κ suficientemente grande, temos
mθ ' 2γ − 1, (9.14)
para o padrão θ e uma sobreposição quase zero para os outros p − 1 padrões. Já nos últimos 50
mil passos MC, ao fazermos η = ξ ν com γ = 1.0 (ν 6= θ), o sistema recuperara o padrão ξ ν
em detrimento dos outros padrões armazenados. É conhecido que o espaço de fase no modelo
de Hopfield apresenta uma estrutura de vales, a qual some uma vez ultrapassado o valor de
αC = 0.14. Como no sistema RNED o parâmetro de carga α > αC , não teremos dita estrutura.
Mas, assim que introduzimos um campo externo, associado com o padrão η, gera-se um vale
na direção desse padrão, beneficiando o seu reconhecimento, porem assim que o campo cessar,
esse vale desaparece.
Na figura 9.6, comparamos as curvas mθ (κ), m⊥ (κ) e ∆m (κ), resultantes das simulações
MC com as curvas mTθ (κ), mT⊥ (κ) e ∆mT (κ) obtidas ao resolver numericamente as equações
acopladas previstas pela teoria de réplicas a T = 0 da secção 8.2.4, para diferentes valores de
α e γ. No geral, observa-se uma boa concordância entre os resultados das simulações MC e da
solução numérica das equações de campo médio.
Nota-se que, m⊥ sempre tomará o valor de 1 para qualquer η, caso κ seja muito grande.
Nesses casos, temos uma predominância do termo de campo externo sobre os termos de sinal e
ruído mas não um reconhecimento, motivo pelo qual esses κ’s não são de interesse.
Devido a que o sistema RNED conta com um termo que atenua o ruído presente no sistema,
surge a pergunta: quanto ruído é capaz de ser absorvido por este termo? ou de forma equi-
valente; qual é o maior parâmetro de carga α, suportado pelo sistema? O valor de αC nesse
sistema será obtido quando a quantidade de padrões armazenados gerem um ruído tao grande,
9.2 Simulações Monte Carlo 59
que o termo de atenuação não seja capaz de compensa-lo. Fisicamente, esta situação se dará
quando as curvas mθ (κ) e m⊥ (κ) forem indistinguíveis, ou seja, quando não existir mais um κc
para o sistema. Na figura 9.7, apresentam-se mθ , m⊥ e ∆m como função de κ, para γ = 1.0 e
α = 40. Observamos que as curvas estão praticamente se superpondo entre si, portanto pode-se
concluir que o valor de αC estará próximo de 40.
Nas seguintes seções, devido à impossibilidade de encontrarmos soluções analíticas para
sistemas RNED diluídos ou com padrões correlacionados, faremos somente um análise numé-
rica.
A seguir, estuda-se numericamente o sistema RNED com diluição débil. Neste caso, estuda-se
a dependência de κc com o parâmetro de diluição d para um α fixo, considerando γ = 1.0 e
ξ θ um padrão armazenado. Nas figuras 9.11, 9.12 e 9.13 apresentam-se os resultados para esse
sistema diluído. Observa-se que, para α fixo, o valor de κc aumenta a medida que o parâmetro de
diluição d, ou seja, as conexões sinápticas, diminuem. É de se esperar este comportamento, pois
60 RNED diluído
mχ
(a)
0.8
0.6
0.4
0.2
κc=0.50
0
0 0.5 1 1.5 2 2.5 κ
mχ
(b)
0.8
0.6
0.4
0.2
0
0 0.5 1 1.5 2 2.5 κ
mχ
(c)
0.8
0.6
0.4
0.2
0
0 0.5 1 1.5 2 2.5 κ
mχ
(d)
0.8
0.6
0.4
0.2
0
0 0.5 1 1.5 2 2.5 κ
mθ m⊥ ∆m
Figura 9.1: Magnetizações mθ (κ), m⊥ (κ) e ∆m (κ) para sistemas RNED com padrões arma-
zenados descorrelacionados e γ = 0.74. A figura mostra como o parâmetro de carga influencia
no aparecimento de κC . (a) α = 0.5. (b) α = 0.7. (c) α = 0.9. (d) α = 1.0.
62 RNED diluído
mχ
(a)
0.8
0.6
0.4
0.2 κc=0.70
0
0 0.5 1 1.5 2 2.5 κ
mχ
(b)
0.8
0.6
0.4
0.2
κc=0.71
0
0 0.5 1 1.5 2 2.5 κ
mχ
(c)
0.8
0.6
0.4
0.2
κc=0.71
0
0 0.5 1 1.5 2 2.5 κ
mχ
(d)
0.8
0.6
0.4
0.2
κc=0.71
0
0 0.5 1 1.5 2 2.5 κ
mθ m⊥ ∆m
mχ
(a)
0.8
0.6
0.4 κc=0.70
0.2
0
0 0.5 1 1.5 2 2.5 κ
mχ
(b)
0.8
0.6
0.4
κc=0.85
0.2
0
0 0.5 1 1.5 2 2.5 κ
mχ
(c)
0.8
0.6
0.4
κc=0.90
0.2
0
0 0.5 1 1.5 2 2.5 κ
mχ
(d)
0.8
0.6
0.4
0.2 κc=0.95
0
0 0.5 1 1.5 2 2.5 κ
mθ m⊥ ∆m
Figura 9.3: Magnetizações mθ (κ), m⊥ (κ) e ∆m (κ) para sistemas RNED com padrões arma-
zenados descorrelacionados e γ = 0.9. A figura mostra que κC cresce conforme o parâmetro
de carga aumenta. (a) α = 0.5. (b) α = 0.7. (c) α = 0.9. (d) α = 1.0.
64 RNED diluído
mχ
(a)
0.8
0.6 κc=0.70
0.4
0.2
0
0 0.5 1 1.5 2 2.5 κ
mχ
(b)
0.8
0.6
κc=0.85
0.4
0.2
0
0 0.5 1 1.5 2 2.5 κ
mχ
(c)
0.8
0.6
0.4 κc=0.90
0.2
0
0 0.5 1 1.5 2 2.5 κ
mχ
(d)
0.8
0.6
0.4 κc=0.95
0.2
0
0 0.5 1 1.5 2 2.5 κ
mθ m⊥ ∆m
Figura 9.4: Magnetizações mθ (κ), m⊥ (κ) e ∆m (κ) para sistemas RNED com padrões arma-
√
zenados descorrelacionados e γ = 0.9. A figura mostra que κC é aproximadamente igual a α.
(a) α = 0.5. (b) α = 0.7. (c) α = 0.9. (d) α = 1.0.
9.2 Simulações Monte Carlo 65
mχ
(a)
0.8
0.6
0.4
κ = 0.0 κ = 0.2 κ = 0.2
0.2
0
0 25 50 75 100 125 κ (x103)
mχ
(b)
0.8
0.6
0.4
κ = 0.0 κ = 0.85 κ = 0.85
0.2
0
0 25 50 75 100 125 κ (x103)
mχ
(c)
0.8
0.6
0.4
κ = 0.0 κ = 1.5 κ = 1.5
0.2
0
0 25 50 75 100 125 κ (x103)
mχ
(d)
0.8
0.6
0.4
κ = 0.0 κ = 2.5 κ = 2.5
0.2
0
0 25 50 75 100 125 κ (x103)
mθ mν
Figura 9.5: Evolução temporal das magnetizações mθ e mν de um sistema RNED com padrões
armazenados descorrelacionados, com γ = 0.9, α = 0.7, para quatro regiões presentes na fig.
9.3 (b): (a) κ = 0.2; (b) κ = 0.85; (c) κ = 1.5; (d) κ = 2.5. Para κ = 0, nos primeiros 50 mil
passos MC, tanto mθ com mν são zero. Nos próximos 50 mil passos, considerando η = ξ θ com
γ = 0.9, observa-se 0 ≤ mθ ≤ 2γ − 1 e mν = 0. Nos últimos 50 mil passos MC, para η = ξ ν
com γ = 1.0, temos 0 ≤ mν ≤ 1 e mθ = 0.
66 RNED diluído
mχ
(a)
0.8
0.6
0.4
0.2
0
0 0.5 1 1.5 2 2.5 κ
mχ
(b)
0.8
0.6
0.4
0.2
0
0 0.5 1 1.5 2 2.5 κ
mχ
(c)
0.8
0.6
0.4
0.2
0
0 0.5 1 1.5 2 2.5 κ
mχ
(d)
0.8
0.6
0.4
0.2
0
0 0.5 1 1.5 2 2.5 κ
mθ m⊥ ∆m mTθ mT⊥ ∆m
T
Figura 9.6: Comparação das magnetizações mθ (κ), m⊥ (κ) em ∆m (κ) obtidas mediante si-
mulação Monte Carlo com as magnetizações mTθ (κ), mT⊥ (κ) e ∆mT (κ) previstas pela teoria
de réplica para quatro casos diferentes: (a) α = 1.0 e γ = 0.74; (b) α = 0.9 e γ = 0.8; (c)
α = 0.7 e γ = 0.9; (d) α = 0.5 e γ = 1.0.
9.2 Simulações Monte Carlo 67
mχ
0.8 α=40
0.6
0.4
mθ
m⊥
0.2
∆m
κc=4.80
0
0 2 4 6 8 10 κ
Figura 9.7: Magnetizações mθ (κ), m⊥ (κ) e ∆m (κ) para sistemas RNED com padrões arma-
zenados descorrelacionado, γ = 1.0 e α = 40.0. Observamos uma grande semelhança entre as
curvas mθ e m⊥ , o qual indica que αc ≈ 40.
68 RNED diluído
mχ
(a)
0.8
0.6 κc=0.60
0.4
0.2
0
0 0.5 1 1.5 2 2.5 κ
mχ
(b)
0.8
0.6
κc=0.75
0.4
0.2
0
0 0.5 1 1.5 2 2.5 κ
mχ
(c)
0.8
0.6
0.4 κc=0.85
0.2
0
0 0.5 1 1.5 2 2.5 κ
mχ
(d)
0.8
0.6
0.4 κc=0.95
0.2
0
0 0.5 1 1.5 2 2.5 κ
mθ m⊥ ∆m
Figura 9.8: Magnetizações mθ , m⊥ e ∆m como uma função de κ, para sistemas RNED com
um padrão 40% correlacionado com ξ θ . Observamos que κ cresce com o parâmetro de carga α.
(a) α = 0.5. (b) α = 0.7. (c) α = 0.9. (d) α = 1.0.
9.2 Simulações Monte Carlo 69
mχ
(a)
0.8
κc=0.35
0.6
0.4
0.2
0
0 0.5 1 1.5 2 2.5 κ
mχ
(b)
0.8
0.6 κc=0.45
0.4
0.2
0
0 0.5 1 1.5 2 2.5 κ
mχ
(c)
0.8
0.6 κc=0.60
0.4
0.2
0
0 0.5 1 1.5 2 2.5 κ
mχ
(d)
0.8
0.6 κc=0.70
0.4
0.2
0
0 0.5 1 1.5 2 2.5 κ
mθ m⊥ ∆m
Figura 9.9: Magnetizações mθ (κ), m⊥ (κ) e ∆m (κ) para sistemas RNED com um padrão
espacialmente correlacionado em 80% com ξ θ . A figura mostra que κC cresce conforme o
parâmetro de carga aumenta e que mθ → 1.0 mais rapidamente que na fig. 9.8. (a) α = 0.5. (b)
α = 0.7. (c) α = 0.9. (d) α = 1.0.
70 RNED diluído
mχ
κc=0.19
0.8 (a)
0.6
0.4
0.2
0
0 0.5 1 1.5 2 2.5 κ
mχ
κc=0.20
0.8 (b)
0.6
0.4
0.2
0
0 0.5 1 1.5 2 2.5 κ
mχ
0.8 κc=0.20 (c)
0.6
0.4
0.2
0
0 0.5 1 1.5 2 2.5 κ
mχ
0.8 κc=0.21 (d)
0.6
0.4
0.2
0
0 0.5 1 1.5 2 2.5 κ
mθ m⊥ ∆m
Figura 9.10: Magnetizações mθ (κ), m⊥ (κ) e ∆m (κ) para sistemas RNED com quatro padrões
correlacionados em 60%, 70%, 80% e 90% com ξ θ . Observa-se que é suficiente κC ≈ 0.2 para
recuperar o padrão ξ θ . (a) α = 0.5. (b) α = 0.7. (c) α = 0.9. (d) α = 1.0.
9.2 Simulações Monte Carlo 71
mχ
(a)
0.8
0.6
0.4 κc=0.95
0.2
0
0 0.5 1 1.5 2 2.5 κ
mχ
(b)
0.8
0.6
κc=0.75
0.4
0.2
0
0 0.5 1 1.5 2 2.5 κ
mχ
(c)
0.8
0.6 κc=0.65
0.4
0.2
0
0 0.5 1 1.5 2 2.5 κ
mχ
(d)
0.8
0.6 κc=0.65
0.4
0.2
0
0 0.5 1 1.5 2 2.5 κ
mθ m⊥ ∆m
Figura 9.11: Magnetizações mθ , m⊥ e ∆m como uma função de κ, para sistemas RNED diluí-
dos com α = 0.5. Observa-se que κC aumenta conforme o parâmetro de diluição d cresce. (a)
d = 0.3. (b) d = 0.6. (c) d = 0.9. (d) d = 1.0.
72 RNED diluído
mχ
(a)
0.8
0.6
0.4
κc=1.15
0.2
0
0 0.5 1 1.5 2 2.5 κ
mχ
(b)
0.8
0.6
0.4 κc=0.90
0.2
0
0 0.5 1 1.5 2 2.5 κ
mχ
(c)
0.8
0.6
κc=0.80
0.4
0.2
0
0 0.5 1 1.5 2 2.5 κ
mχ
(d)
0.8
0.6
κc=0.80
0.4
0.2
0
0 0.5 1 1.5 2 2.5 κ
mθ m⊥ ∆m
Figura 9.12: Magnetizações mθ (κ), m⊥ (κ) e ∆m (κ) para sistemas RNED diluídos com α =
0.7. A figura mostra uma dependência de κC com o parâmetro de diluição d. (a) d = 0.3. (b)
d = 0.6. (c) d = 0.9. (d) d = 1.0.
9.2 Simulações Monte Carlo 73
mχ
(a)
0.8
0.6
0.4
κc=1.25
0.2
0
0 0.5 1 1.5 2 2.5 κ
mχ
(b)
0.8
0.6
0.4 κc=1.05
0.2
0
0 0.5 1 1.5 2 2.5 κ
mχ
(c)
0.8
0.6
0.4 κc=1.00
0.2
0
0 0.5 1 1.5 2 2.5 κ
mχ
(d)
0.8
0.6
0.4 κc=0.95
0.2
0
0 0.5 1 1.5 2 2.5 κ
mθ m⊥ ∆m
Figura 9.13: Magnetizações mθ , m⊥ e ∆m como uma função de κ, para sistemas RNED diluí-
p
dos com α = 1.0. Observa-se que os valores de κC são próximos de α/d, como previsto em
9.1.1. (a) d = 0.3. (b) d = 0.6. (c) d = 0.9. (d) d = 1.0.
74 RNED diluído
Apêndice A
p
" n s
!#
Y βN X 2 1 X
Zn = Tr exp Cµa − βp + βN hν Cνa + βN κfa ,
S
a=1
2 µ=1
2 ν=1
p
" n s
!#
Y βN X X
= e−βpn/2 Tr exp 2
Cµa + βN hν Cνa + βN κfa ,
S
a=1
2 µ=1 ν=1
p
" n s
!!#
Y Y βN X
= e−βpn/2 Tr exp 2
Cµa · exp βN hν Cνa + βN κfa .
S
a=1 µ=1
2 ν=1
√
Z
λa2 dx 2
e = √ e−x /2+ 2λax , (A.7)
2π
obtendo-se:
p Z
" n
! s
!!#
Y Y +∞
dyaµ (yaµ )2 p X
Z n = e−βpn/2 Tr √ exp − + βN yaµ Cµa · exp βN hν Cνa + βN κfa
S
a=1 µ=1 −∞ 2π 2 ν=1
p p p
" n Z +∞ s
!#
Y Y dy µ 1X µ 2 p X X
= e−βpn/2 Tr a
√ exp − (ya ) + βN µ
ya Cµa + βN hν Cνa + βN κfa .
S
a=1 −∞ µ=1
2π 2 µ=1 µ=1 ν=1
p p p
"Z n Y n n X n X s n
!#
+∞ Y
dyaµ 1 XX µ 2 p X X X
Z n = e−βpn/2 Tr √ exp − (ya ) + βN yaµ Cµa + βN hν Cνa + βN κ fa . (A.8)
S −∞ a=1 µ=1
2π 2 a=1 µ=1 a=1 µ=1 a=1 ν=1 a=1
77
É fácil fazer a media de Z n no desordem, pois os expoentes da função de partição são funções lineares das variáveis aleatórias ξiµ , µ =
78
s + 1, . . . , p. Então, tomando a media na equação anterior, obtemos
p p p
** "Z n Y n n
+∞ Y
−βpn/2 dy µ 1 X X µ 2 X X p
n
hZ i = e Tr √ a exp − (ya ) + βN yaµ + βN hν Cµa
S −∞ a=1 µ=1
2π 2 a=1 µ=1 a=1 µ=1
n X
s n
!#+ +
X X
+βN hν Cνa + βN κ fa
a=1 ν=1 a=1 η ξ
Z p p
!* p
!+
+∞ Yn Y µ n n
dy 1 X X 2
p X X
= e−βpn/2 Tr √ a exp − (yaµ ) exp βN yaµ Cµa
S −∞
a=1 µ=1
2π 2 a=1 µ=s+1 a=1 µ=s+1
ξµ
| {z }
L1
** n s n X
s n X
s n
!+ +
1 XX ν 2
p X
ν
X
ν
X
· exp − (ya ) + βN ya Cνa + βN h Cνa + βN κ fa (A.9)
2 a=1 ν=1 a=1 ν=1 a=1 ν=1 a=1 η ξν
Calculando separadamente L1 :
!2
p p
N n N n X n
!
X X β X X X β X
L1 = exp yaµ Sia = exp yaµ ybµ Sia Sib . (A.10)
µ=s+1 i=1
2N a=1 µ=s+1 i=1
2N a=1 b=1
p p p
"Z n Y n
! N n X n
!
+∞ Y
dyaµ 1X X X X β X
hZ n i = e−βpn/2 Tr √ exp − (yaµ )2 exp yaµ ybµ Sia Sib
S −∞ a=1 µ=1 2π 2 a=1 µ=s+1 µ=s+1 i=1
2N a=1 b=1
** n X s n X s n
!+ +
1 X X X
(yaν )2 +
p
· exp − βN yaν + βN hν Cνa + βN κ fa
2 a=1 ν=1 a=1 ν=1 a=1 η ξν
Z +∞ n p n p p N X n X n
!
Y Y dy µ 1 X X β X X
= e−βpn/2 Tr √ a exp − (yaµ )2 + yaµ ybµ Sia Sib
S
−∞ a=1 µ=1 2π
2 a=1 µ=s+1
2N µ=s+1 i=1 a=1 b=1
| {z }
L2
** n s n X
s n
!+ +
1 XX ν 2
X p ν ν
X
· exp − (ya ) + βN ya + βN h Cνa + βN κ fa (A.11)
2 a=1 ν=1 a=1 ν=1 a=1 η ξν
79
onde h. . .iξν denota a media aleatória dos s padrões condensados {ξiν }. Fazendo o cálculo da integral dos p − s termos quadráticos, denotado
80
por L2 , separadamente, temos:
p p p
n
Z +∞ Y n N X n Xn
!
µ
Y dy 1 X X β X X
L2 = √ a exp − (yaµ )2 + yaµ ybµ Sia Sib ,
−∞ a=1 µ=s+1 2π 2 a=1 µ=s+1 2N µ=s+1 i=1 a=1 b=1
p p p
n
Z +∞ Y " n N n n
!#
Y dyaµ X 1X X µ 2 β XXX µ µ a b
= √ exp − (ya ) + ya yb Si Si ,
−∞ a=1 µ=s+1 2π µ=s+1
2 a=1 µ=s+1
2N i=1 a=1 b=1
p
n
Z +∞ Y " p n n n n N
!!#
Y dy µ X 1 XX µ µ 1 XX µ µ β X a b
a
= √ exp − y y δab + y y S S ,
−∞ a=1 µ=s+1 2π µ=s+1
2 a=1 a=1 a b 2 a=1 b=1 a b N i=1 i i
p p
n n X n N
!
+∞ Y
dyaµ
Z Y X 1X β X a b
yaµ ybµ
= = √ exp − δab − S S ,
−∞ a=1 µ=s+1
2π µ=s+1 2 a=1 a=1
N i=1 i i
| {z }
Kab
p p
n
" n n
!#
+∞ Y
dy µ
Z Y X 1 XX µ µ
= √ a exp − y y Kab .
−∞ a=1 µ=s+1
2π µ=s+1
2 a=1 a=1 a b
→ − →
− →
−
p n n n
!
+∞ Y
dyaµ
Z
Y 1 XX µ µ
L2 = √ exp − y y Kab ,
µ=s+1 −∞ a=1
2π 2 a=1 a=1 a b
" Z +∞ Y n n X n
!#p−s
1 X
= (2π)−n/2 dyaµ exp − yaµ ybµ Kab ,
−∞ a=1 2 a=1 a=1
Z +∞ p−s
−n/2 →
− µ 1 →
− µ T →
− µ
= (2π) d y a exp − ( y a ) Kab y b ,
−∞ 2
" #p−s
n/2
−n/2 (2π)
= (2π) 1/2
= (det K)−(p−s)/2 .
(det K)
Para p grande, p − s ≈ p
p
L2 = (det K)−p/2 = exp − Tr (ln K) .
2
Pn
Observação 2: No cálculo anterior, denota-se de forma explicita Tr (ln K) = i=1 ln (di ) onde di são os valores próprios de K.
!
Y X
(det K)−p/2 = (di )−p/2 = exp ln (di )−p/2 ,
i i
!
pX p
= exp − ln (di ) = exp − Tr (ln D) ,
2 2
p i p
= exp − Tr U −1 U · ln D = exp − Tr U · ln D · U −1 ,
p2 2
= exp − Tr (ln K) .
2
81
82
Usando propriedade da delta de Dirac (multidimensional)
p
L2 = exp − Tr (ln K) ,
2 !
Z Y p N
Y 1 X a b
= dqab exp − Tr [ln ((1 − β) I − βQ)] · δ qab − S S .
a6=b
2 a6=b
N i=1 i i
Onde fizemos K = (1 − β) I − βQ, I denota a matriz unitária n dimensional. Um novo conjunto de variáveis auxiliares Q = [qab ] é
introduzido, e define-se como:
1 N Sia Sib
P
a 6= b
N i=1
qab = (A.13)
0
a=b
Além disso, ao introduzir uma representação formal da integral de Fourier da função delta:
Z +i∞
1
δ (x − x0 ) = exp (−r (x − x0 )) dr
2πi −i∞
A.1 Teoria do Campo médio
Para n (n − 1) temos {qab }, e despreciando o fator multiplicante, encontra-se:
Z Y N
!!
h p i p YZ 1 X a b
exp − Tr (ln K) ∝ dqab exp − Tr [ln ((1 − β) I − βQ)] · drab exp −rab qab − S S ,
2 a6=b
2 a6=b
N i=1 i i
Z Y N
!!
p Z Y X 1 X a b
∝ dqab exp − Tr [ln ((1 − β) I − βQ)] · drab exp − rab qab − Si Si .
a6=b
2 a6=b a6=b
N i=1
Z Y Z Y " N
!#
p X 1 X
∝ drab dqab exp − Tr [ln ((1 − β) I − βQ)] − rab qab − Sia Sib
a6=b a6=b
2 a6=b
N i=1
N αβ 2
Reescalando os rab → 2
rab por conveniência, obtemos
" N
!#
N αβ 2 X
h p Z Y Z Y
i p 1 X a b
exp − Tr (ln K) ∝ drab dqab exp − Tr [ln ((1 − β) I − βQ)] − rab qab − S S . (A.14)
2 a6=b a6=b
2 2 a6=b
N i=1 i i
"Z n Y
s N
!!!
+∞ Y
dyaν 2
Z Y Z Y
p N αβ X 1 X
hZ n i ∝ e−βαN n/2 Tr √ drab dqab exp − Tr [ln ((1 − β) I − βQ)] − rab qab − Sia Sib
S −∞ a=1 ν=1 2π a6=b a6=b
2 2 a6=b N i=1
** n X s n X s n
!+ +
1 X X X
(yaν )2 +
p
· exp − βN yaν + βN hν Cνa + βN κ fa
2 a=1 ν=1
83
a=1 ν=1 a=1 η ξν
√
84
fazendo os reescalamentos y µ → βN y µ , para garantir a extensividade da energia livre
"Z n Ys N
!!!
+∞ Y
dyaν N αβ 2 X
Z Y Z Y
n −βαN n/2 p 1 X a b
hZ i ∝ e Tr √ drab dqab exp − Tr [ln ((1 − β) I − βQ)] − rab qab − S S
S −∞ a=1 ν=1 2π a6=b a6=b
2 2 a6=b N i=1 i i
** n X s n X s n
!+ +
βN X X X
· exp − (y ν )2 + βN (yaν + hν ) Cνa + βN κ fa
2 a=1 ν=1 a a=1 ν=1 a=1 η ξν
Z +∞ Y n Ys n s
!!
dy ν
Z Z
Y Y α αβ X 1 XX ν 2
∝ e−βαN n/2 √a drab dqab exp N β − Tr [ln ((1 − β) I − βQ)] − rab qab − (ya )
−∞ a=1 ν=1 2π a6=b a6=b
2β 2 a6=b
2 a=1 ν=1
** " N n n s n
!#+ +
X αβ 2 X XX X
a b ν ν ν a a
· Tr exp rab Si Si + β (ya + h ) ξi Si + βκ ηi Si .
S
i=1
2 a6=b a=1 ν=1 a=1 η ξν
| {z }
L3
A última linha da equação anterior pode ser representada como uma função dos padrões aleatórios, {ξiν }, e as n réplicas dos spins binomiais
{Sia }, e pode-se escrever de forma geral como:
** " N
#+ + ** N + +
onde Tr indica o traço sobre n spins binomiais replicados {S a (= ±1)}. Note-se que s N ( com N → ∞) garante que L3 tenha a
Sa
onde
n s
αn 1 X X ν 2 α αβ X 1D E
f {y, q, r} = + (ya ) + Tr [ln ((1 − β) I − βQ)] + rab qab − hln Z0 iη (A.18)
2 2 a=1 ν=1 2β 2 a6=b β ξν
e " !#
n n X s n
αβ 2 X a b
X
ν ν ν a
X
Z0 = Tr exp rab S S + β (ya + h ) ξ S + βκ ηS a (A.19)
Sa 2 a6=b a=1 ν=1 a=1
yiν = y ν , (A.20)
qab = q, a 6= b (A.21)
85
rab = r, a 6= b. (A.22)
86
Então f será minimizado em relação a estes três parâmetros apenas, além disso, Tr [ln ((1 − β) I − βQ)] é fácil de calcular pois a matriz
(1 − β) I − βQ tem vetores próprios simples; um vetor com todas as componentes iguais e n − 1 vetores cujas componentes somam zero. A
densidade de energia livre pode ser representada usando os anteriores parâmetros de ordem RS, depois do apropriado processo de limite, na
equação A.18
s
!
f α 1 X ν 2 α αβ 1 D E
fRS = lim = + lim n (y ) + Tr [ln ((1 − β) I − βQ)] + rq (n − 1) n − hln Z0 iη
n→0 n 2 n→0 2n ν=1 2βn 2n βn ξν
s
α 1 X ν 2 αβ α 1 1 D E
= + (y ) − rq + lim Tr [ln ((1 − β) I − βQ)] − lim hln Z0 iη
2 2 ν=1 2 2β n→0 n n→0 βn ξν
s
α 1 X ν 2 αβ α βq 1 D E
= + (y ) − rq + ln (1 − β + βq) − − lim hln Z0 iη .
2 2 ν=1 2 2β 1 − β + βq n→0 βn ξν
Focando em Z0 , temos
" n
! !! n X
s n
!#
Z 2
2 r/2 1 z p X X X
Z0 = e−nαβ · Tr√ dz exp − + αβ 2 r Sa z · exp β (y ν + hν ) ξ ν S a + βκ ηS a
Sa 2π 2 a=1 a=1 ν=1
" n
! n s n
!#a=1
Z 2
2 1 z p X XX X
= e−nαβ r/2 · Tr √ dz exp − + αβ 2 r Sa z + β (y ν + hν ) ξ ν S a + βκ ηS a
S a 2π 2 a=1 a=1 ν=1 a=1
" n s
! #
2 1
Z 2
z X √ X
= e−nαβ r/2 · √ dz exp − · Tr exp β z αr + (y ν + hν ) ξ ν + κη S a
2π 2 S a
a=1 ν=1
1
Z 2 h
z √ →
− → − in
→−
−nαβ 2 r/2
= e ·√ dz exp − · Tr exp β z αr + m + h · ξ + κη S
2π 2 S
1
Z 2
z √ →
− → − n
· 2 cosh β z αr + → −
2
= e−nαβ r/2 · √ dz exp − m + h · ξ + κη . (A.23)
2π 2
→
− →−
onde →
−
m, h e ξ são vetores s dimensionais.
Z Z
−z 2 /2 n 2 /2
ln dze f (z) ≈ n dze−z ln (f n (z)) , (A.24)
nαβ 2 r
1
Z √ →
− →− n
→−
−z 2 /2
ln Z0 = − + ln √ dze · 2 cosh β z αr + m + h · ξ + κη
2 2π
nαβ 2 r n
Z √ →
− →−
dze−z /2 ln 2 cosh β z αr + → −
2
h i
= − +√ m + h · ξ + κη .
87
2 2π
88
A expressão da energia livre fica então, como
α 1→− 2 αβ α βq
fRS = + m − rq + ln (1 − β + βq) −
2 2 2 2β 1 − β + βq
* +
1 nαβ 2 r n
Z √ →
− →
− i
→−
2
h
− lim − +√ dze−z /2 ln 2 cosh β z αr + m + h · ξ + κη
n→0 βn 2 2π η ξν
α 1→ αβ α βq
= + −m2 + r (1 − q) + ln (1 − β + βq) −
2 2 2 2β 1 − β + βq
* +
1 1
Z √ →
− →− i
dze−z /2 ln 2 cosh β z αr + → −
2
h
− √ m + h · ξ + κη
β 2π η ξν
√ →
− →
−
Lembrando que P (ηi ) = γδ ηi − ξiθ + (1 − γ) δ ηi + ξiθ e fazendo Ξ = z αr + →−
m + h · ξ , a densidade de energia livre pode-se
α αβ 1→− 2 α βq 1D E
fRS = + r (1 − q) + m + ln (1 − β + βq) − − hln [2 cosh β (Ξ + κη)]iη , (A.25)
2 2 2 2β 1 − β + βq β z
2
√dz − z2
R
onde h. . .iz ≡ 2π
exp h. . .iξν representa uma media dupla: sobre os padrões recuperados ξ ν = ±1, e sobre o ruído multiplicativo
gaussiano z.
A.3 Equações de campo médio
A.3 Equações de campo médio
∂fRS ν
D
ν
E
= 0 −→ 0 = m − hξ tanh β (Ξ + κη)i η
∂mν D E z
ν ν
m = hξ tanh β (Ξ + κη)iη (A.26)
z
∂fRS αβ α β β (1 − β + βq) − βq (β)
= 0 −→ 0 = 0 − r+ −
∂q 2 2β 1 − β + βq (1 − β + βq)2
q
r= (A.27)
(1 − β + βq)2
* √ +
∂fRS αβ 1 α
= 0 −→ 0 = 0 + (1 − q) − √
tanh β (Ξ + κη) · βz
∂r 2 β
2 r η
z
√ D
αβ α E
(1 − q) = √ hz tanh β (Ξ + κη)iη
2 2 r z
√ D E
89
αrβ (1 − q) = hz tanh β (Ξ + κη)iη . (A.28)
z
90
Reescrevemos a medis envolvida em (A.28), fazendo uma integração por partes:
**Z 2 + +
D E dz z
hz tanh β (Ξ + κη)iη = √ exp − · z tanh β (Ξ + κη)
z 2π 2 | {z }
| {z } u
v0 η ξν
u = tanh β (Ξ + κη) → u0 = β √αrsech2 β (Ξ + κη)
2
v 0 = z exp − z2
→ v = − exp − z2
2
* +
√
Z
D E 1 2 2
hz tanh β (Ξ + κη)iη = √ −e−z /2 · tanh β (Ξ + κη) \+∞
−∞ + e−z /2 · β αrsech2 β (Ξ + κη) dz
z 2π η ξν
*Z +
√ dz 2
√ e−z /2 · 1 − tanh2 β (Ξ + κη)
= β αr
2π η ξν
√ h D Ei
= β αr 1 − tanh2 β (Ξ + κη) η
(A.29)
z
∂fRS √ √ h D
Ei
= 0 −→ αrβ (1 − q) = 1 − tanh2 β (Ξ + κη) η
β αr
∂r D
z
2
E
q − 1 = −1 + tanh β (Ξ + κη) η
z
D
E
2
q = tanh β (Ξ + κη) η (A.30)
z
A.3 Equações de campo médio
Finalmente, obtêm-se
D √ →
− →
− E
→−
ν ν
m = ξ tanh β z αr + m + h · ξ + κη (A.31)
η z
q
r = (A.32)
(1 − β + βq)2
D √ →
− →
− E
→−
2
q = tanh β z αr + m + h · ξ + κη . (A.33)
η z
A.3.1 Soluções em T = 0
Agora indo ao núcleo da teoria AGS em T = 0. Tratando primeiro com a solução para a chamada fase de recuperação ferromagnética
1 ν = θ
ν
(FMR), correspondente ao caso em que m ∼ (nos representaremos ele como m). Lembrando-se que P (η) = γδ η − ξ θ +
0 ν 6= θ
→
−
(1 − γ) δ η + ξ θ ,reescrevem-se as medias envolvidas nas equações (A.31), (A.33) para o caso em que h = 0
Na primeira media envolvida, fazemos:
√
Z +∞ √
ν θ θ
dz −z2 /2 θ θ θ
ξ tanh β z αr + mξ ± κξ z
= √ e · ξ tanh β z αr + mξ ± κξ
−∞ 2π ξν
Z +∞
dz 2 √
√ e−z /2 ξ θ tanh β z αr + mξ θ ± κξ θ ξν
=
−∞ 2π
Z +∞ !
√ 1
Z Z Y
dz −z2 /2 :
P ξ θ ξ θ tanh β z αr + mξ θ ± κξ θ dξ θ · ν
) dξ ν
= √ e P(ξ
−∞ 2π ν6
=θ,
Z +∞
√
Z
(ξ =1)
2
dz −z2 /2 θ
θ
θ 2 θ θ
θ
= √ e P ξ ξ tanh β z ξ αr + mξ ± κξ dξ
−∞ 2π
Z +∞
√
Z
dz −z2 /2 θ
θ θ θ
θ
= √ e P ξ ξ tanh βξ zξ αr + m ± κ dξ
91
−∞ 2π
92
como a função tanh é impar, cumpre-se tanh (ξx) = ξ tanh (x), pelo que temos
Z +∞ 1
√ √
Z
dz 2 2
√ e−z /2 P ξ θ ξ
ν >
θ
ξ tanh β z αr + mξ θ ± κξ θ z = tanh β zξ θ αr + m ± κ dξ θ
−∞ 2π
Z +∞
√
Z
dz −z2 /2 θ
θ
θ
= √ e P ξ tanh β zξ αr + m ± κ dξ
−∞ 2π
Fazendo a mudança de variável w = zξ θ → dw = ξ θ dz. Substitui-se na integral, tendo em conta que ξ θ = ±1 e os limites de integração
mudam com o sinal de ξ θ , temos
√
Z +∞ Z
√
dw 2
ν θ θ
√ e−w /2 θ
tanh β w αr + m ± κ dξ θ
ξ tanh β z αr + mξ ± κξ z
= P ξ
−∞ 2π
*1
Z +∞ √
Z
dw 2 θ
√ e−w /2 tanh β θ
= w αr + m ± κ P
ξ dξ
−∞ 2π
Z +∞ √
dw 2
√ e−w /2 · tanh β w αr + m ± κ .
= (A.34)
−∞ 2π
Tomando o limite T → 0 ou β → ∞ da expressão (A.34)
Z 0 Z +∞ :0
2 −x2 2 −x
2
≈ √ + √ −1
dxe dxe
π m±κ
−√ π 0
2αr
Z 0
2 2
≈ √ dxe−x
π m±κ
−√
2αr
√
m±κ
ξ tanh β z αr + mξ θ ± κξ θ z ≈ erf
ν
√ . (A.36)
93
2αr
94
Desenvolvendo uma expressão para a outra media envolvida:
Z +∞
√ √
2 θ θ
dz −z2 /2 2 θ θ
tanh β z αr + mξ ± κξ z = √ e · tanh β z αr + mξ ± κξ
−∞ 2π ξν
Z +∞
dz 2 √
√ e−z /2 tanh2 β z αr + mξ θ ± κξ θ ξν
=
−∞ 2π
1
Z +∞ *
√
Z Z Y
dz −z2 /2 θ 2 θ θ θ
(ξν ) dξ ν
= √ e P ξ tanh β z αr + mξ ± κξ dξ · P
−∞ 2π ν6=
θ
+∞ Z
√
(ξ2 =1)
Z
dz −z2 /2 θ
2
θ 2 θ θ
θ
= √ e P ξ tanh β z ξ αr + mξ ± κξ dξ
−∞ 2π
Z+∞ Z
√
dz −z2 /2 θ
2 θ θ
θ
= √ e P ξ tanh βξ zξ αr + m ± κ dξ
−∞ 2π
como a função tanh2 é par, temos tanh2 (ξx) = tanh2 (x), obtêm-se
Z +∞
√ √
Z
2 θ θ
dz −z2 /2 θ
2 θ
θ
tanh β z αr + mξ ± κξ z = √ e P ξ tanh β zξ αr + m ± κ dξ .
−∞ 2π
√
Z +∞ Z
√
dw 2
2
tanh β z αr + mξ θ ± κξ θ z = √ e−w /2 θ 2
tanh β w αr + m ± κ dξ θ
P ξ
−∞ 2π
*1
Z +∞ √
Z
dw 2
√ e−w /2 tanh2 β w αr + m ± κ ξ θ dξ θ
= P
−∞ 2π
Z +∞ √
dw 2
√ e−w /2 · tanh2 β w αr + m ± κ
= (A.37)
−∞ 2π
A.3 Equações de campo médio
Tendo em conta que 1 − tanh2 x = sech2 x
√
Z +∞ √
dw 2
tanh2 β z αr + mξ θ ± κξ θ z = √ e−w /2 · tanh2 β w αr + m ± κ − 1 + 1
−∞ 2π
√
Z
dw 2
= 1 − √ e−w /2 · sech2 β w αr + m ± κ ,
2π
fazendo a substituição algébrica
√ √ x − (m ± κ) β
x = β w αr + m ± κ → dx = β αrdw e w = √
β αr
obtemos
" #
√ (x − (m ± κ) β)2
Z
1 dx
tanh2 β z αr + mξ θ ± κξ θ
· sech2 (x)
z
= 1− √ √ · exp −
2π β αr 2β 2 αr
" #
(m ± κ)2 β 2
2
x − 2x (m ± κ) β
Z
1
= 1− √ dx · exp − · exp − · sech2 (x)
β 2παr 2β 2 αr 2β 2 αr
" #Z
(m ± κ)2
2
1 x − 2x (m ± κ) β
= 1− √ · exp − dx · exp − · sech2 (x)
β 2παr 2αr 2β 2 αr
h 2 i
Como β → ∞, temos que exp − x −2x(m±κ)β
2
2β αr
→ 1, pelo que pode-se escrever
" #Z
√ 1 (m ± κ)2
tanh2 β z αr + mξ θ ± κξ θ
dx · sech2 (x)
z
≈ 1− √ · exp −
β 2παr 2αr
" #
1 (m ± κ)2
≈ 1− √ · exp − · tanh (x) |+∞
−∞
β 2παr 2αr
" #
(m ± κ)2
r
1 2
≈ 1− · exp − (A.38)
95
β παr 2αr
96
Com ajuda de (A.36) e (A.38), reescrevemos as equações (A.31), (A.33) e (A.32), obtendo-se
m+κ m−κ
m = γerf √ + (1 − γ) erf √ (A.39)
2αr 2αr
q
r = (A.40)
(1 − β + βq)2
r
1 2 h −(m+κ)2 /2αr 2
i
q = 1− γe + (1 − γ) e−(m−κ) /2αr (A.41)
β παr
r [1 − β (1 − q)]2 = q
:0
r !2 r
2 h −(m+κ)2 /2αr 1 2 h −(m+κ)2 /2αr
i i
2 2
r 1− γe + (1 − γ) e−(m−κ) /2αr = 1− γe + (1 − γ) e−(m−κ) /2αr
παr β παr
!2
r
2 h −(m+κ)2 /2αr 2
i
+ (1 − γ) e−(m−κ) /2αr
√ √
Fazendo a troca de variáveis m = y 2αr e κ = x 2αr na equação anterior, e tomando a raiz quadrada, obtemos
r
√ 2 h −(y+x)2 2
i
r− γe + (1 − γ) e−(y−x) ≈ 1. (A.42)
πα
√
y 2αr = γerf (y + x) + (1 − γ) erf (y − x) (A.43)
A.3 Equações de campo médio
De (A.42) e (A.43), temos
r
γerf (y + x) + (1 − γ) erf (y − x) 2 h −(y+x)2 −(y−x)2
i
√ − γe + (1 − γ) e = 1
y 2α πα
" #
√
r
2 −(y+x)2 2
y 2α 1 + γe + (1 − γ) e−(y−x) = γerf (y + x) + (1 − γ) erf (y − x)
πα
γerf (y + x) + (1 − γ) erf (y − x)
y=√ 2 2 .
2α + √2π γe−(y+x) + (1 − γ) e−(y−x)
√ √
Com m = y 2αr e κ = x 2αr em A.39, obtemos
m = γerf (y + x) +
(1 − γ) erf (y + x) .
• Ao fazer γ = 1, obtêm-se
erf (y + x)
y = √ 2
2α + √2π e−(y+x)
m = erf (y + x) ,
recupera-se a forma das equações inicialmente obtidas no modelo AGS, que correspondem ao caso do reconhecimento de um padrão
97
previamente armazenado.
98
• Se além de γ = 1, consideramos que y + x → x, obtemos
erf (x)
y = √
2α + √2π e−x2
m = erf (x) ,
√
Para que as equações anteriores sejam idênticas as expressões originais, basta fazer κ = h (ou x = h/ 2αr).
• Exemplo:
Dado o vetor de 100 elementos, X (N = 100) = (1, 2, 3, . . . , 100), a subroutina
Ransam, devolve o subvetor de 70 elementos escolhidos aleatoriamente a partir de
X, A (K = 70) = (2, 7, 100, . . . , 40), .
4. O vetor Itera conterá a informação das conexões sinápticas Jij a serem cortadas na matriz
de conexão D. Esta informação sera recuperada mediante a subroutina ReposicaoMatriz
e introduzida na matriz de diluição.
1 !
===========================================================================
2 SUBROUTINE MatrizDilucao(matrizdil,comprimento,probdilucao,iseed)
3 !
---------------------------------------------------------------------------
4 IMPLICIT NONE
5 INTEGER*8:: dil_int,comprimento,posij
6 INTEGER*8:: i,j,k,compl
7 INTEGER*8:: matrizdil(comprimento,comprimento)
8 INTEGER*8,ALLOCATABLE:: iteracao(:),posicao(:)
9 INTEGER:: iseed
10 REAL*8:: probdilucao
11
12 compl = comprimento**2-comprimento
13 dil_int = idnint(DBLE(compl)*probdilucao)
14 ALLOCATE(posicao(compl),iteracao(dil_int))
15 !------------construcao 1 - matrizdil-----------
16 matrizdil = 1
17 DO i = 1,comprimento
18 matrizdil(i,i) = 0
19 ENDDO
20 !------------vetor de posicoes-------------
21 k = 0
22 DO i=1,comprimento
23 DO j=1,comprimento
24 IF (i /= j) THEN
25 k = k + 1
26 posicao(k) = (i-1)*comprimento + j
27 ENDIF
28 ENDDO
29 ENDDO
30
34 !------------construcao 2 - matrizdil----------
35 DO k=1,dil_int
36 posij = iteracao(k)
37 CALL reposicmatriz(posij,comprimento,i,j)
38 matrizdil(i,j) = 0
39 ENDDO
40
41 ENDSUBROUTINE
Listing A.1: Subroutina MatrizDilucao
102 Criação da Matriz de diluição
1 !=======================================================================
2 SUBROUTINE ReposicaoMatriz(numero,comprimento,i,j)
3 !-----------------------------------------------------------------------
4 IMPLICIT NONE
5 INTEGER*8:: numero, comprimento
6 INTEGER*8:: i, j
7 !-----------------------------------------------------------------------
8 i = numero/comprimento + 1
9 j = MOD(numero,comprimento)
10 IF (j == 0) THEN
11 i = numero/comprimento
12 j = comprimento
13 ENDIF
14
15 ENDSUBROUTINE
Listing A.2: Subroutina ReposicaoMatriz
1 !=======================================================================
2 SUBROUTINE Ransam(X,A,n,k,Iseed)
3 !-----------------------------------------------------------------------
4 IMPLICIT NONE
5 INTEGER*8:: n,k,j,m,l
6 INTEGER:: Iseed
7 REAL*8 :: Ran2
8 INTEGER*8:: X(n),A(k)
9 !-----------------------------------------------------------------------
10 m=0
11 DO 50 j = 1, n
12 l = INT((Float(n-j+1))*Ran2(Iseed))+1
13 IF (l > (k-m)) GOTO 50
14 m = m + 1
15
16 A(m) = X(j)
17 If (m >= k) GOTO 99
18 50 CONTINUE
19 99 RETURN
20 ENDSUBROUTINE
[1] Milton Abramowitz, Irene A Stegun, et al. Handbook of mathematical functions: with
formulas, graphs, and mathematical tables, volume 55. Dover publications New York,
1972.
[2] Daniel J Amit, Hanoch Gutfreund, and Haim Sompolinsky. Spin-glass models of neural
networks. Physical Review A, 32(2):1007, 1985.
[3] Daniel J Amit, Hanoch Gutfreund, and Haim Sompolinsky. Storing infinite numbers of
patterns in a spin-glass model of neural networks. Physical Review Letters, 55(14):1530,
1985.
[4] Daniel J Amit, Hanoch Gutfreund, and Haim Sompolinsky. Statistical mechanics of neural
networks near saturation. Annals of physics, (173):30–67, 1987.
[5] Daniel J Amit, Hanoch Gutfreund, and Haim Sompolinsky. Statistical mechanics of neural
networks near saturation. Annals of physics, 173(1):30–67, 1987.
[7] Elie Bienenstock, F Fogelman Soulié, and Gérard Weisbuch. Disordered Systems and
Biological Organization: Proceedings of the NATO Advanced Research Workshop on Di-
sordered Systems and Biological Organization held at Les Houches, February 25–March
8, 1985, volume 20. Springer Science & Business Media, 2012.
[8] LAV Carvalho. Redes neuronais e a tradição conexionista da inteligência artificial. Rela-
tório Interno, 1988.
104 REFERÊNCIAS BIBLIOGRÁFICAS
[9] Andrea Crisanti, Daniel J Amit, and Hanoch Gutfreund. Saturation level of the hopfield
model for neural network. EPL (Europhysics Letters), 2(4):337, 1986.
[10] I.N. Da Silva, D.H. Spatti, and R.A. Flauzino. Redes Neurais Artificiais para Engenharia
e Ciencias Aplicadas. ARTLIBER. ISBN 9788588098534. URL https://books.
google.com.br/books?id=w2VHbwAACAAJ.
[11] N.G. de Bruijn. Asymptotic Methods in Analysis. Bibliotheca mathematica. Dover Pu-
blications, 1981. ISBN 9780486642215. URL https://books.google.com.br/
books?id=_tnwmvHmVwMC.
[12] L.V. Fausett and L. Fausett. Fundamentals of Neural Networks: Architectures, Al-
gorithms, and Applications. Prentice-Hall international editions. Prentice-Hall, 1994.
ISBN 9780133341867. URL https://books.google.com.br/books?id=
ONylQgAACAAJ.
[13] José Fernando Fontanari and Roland Koberle. Enhancing the learning of a finite number
of patterns in neural networks. Journal of Physics A: Mathematical and General, 21(4):
L253, 1988.
[14] Tamas Geszti. Physical models of neural networks. World Scientific, 1990.
[15] Mirta B Gordon. Memory capacity of neural networks learning within bounds. Journal
de Physique, 48(12):2053–2058, 1987.
[17] John J Hopfield. Neural networks and physical systems with emergent collective com-
putational abilities. Proceedings of the national academy of sciences, 79(8):2554–2558,
1982.
[18] John Hubbard. Calculation of partition functions. Physical Review Letters, 3(2):77, 1959.
[19] W Kinzel. Learning and pattern recognition in spin glass models. Zeitschrift für Physik B
Condensed Matter, 60(2-4):205–213, 1985.
REFERÊNCIAS BIBLIOGRÁFICAS 105
[20] Scott Kirkpatrick and David Sherrington. Infinite-ranged models of spin-glasses. Physical
Review B, 17(11):4384, 1978.
[21] Werner Krauth, J-P Nadal, and Marc Mezard. The roles of stability and symmetry in the
dynamics of neural networks. Journal of Physics A: Mathematical and General, 21(13):
2995, 1988.
[22] William A Little. The existence of persistent states in the brain. In From High-Temperature
Superconductivity to Microminiature Refrigeration, pages 145–164. Springer, 1974.
[23] Warren S McCulloch and Walter Pitts. A logical calculus of the ideas immanent in nervous
activity. The bulletin of mathematical biophysics, 5(4):115–133, 1943.
[24] Marc Mézard, Giorgio Parisi, and Miguel Virasoro. Spin glass theory and beyond: An
Introduction to the Replica Method and Its Applications, volume 9. World Scientific Pu-
blishing Company, 1987.
[25] Ferenc PazmAndi and Tamas Geszti. Relative stability in the dynamics of a two-pattern
neural net. Journal of Physics A: Mathematical and General, 22(23):5117, 1989.
[26] P Peretto. On learning rules and memory storage abilities of asymmetrical neural
networks. Journal de Physique, 49(5):711–726, 1988.
[28] D.E. Rumelhart, J.L. McClelland, and San Diego. PDP Research Group University of
California. Parallel Distributed Processing: Foundations. A Bradford book. MIT Press,
1986. ISBN 9780262680530. URL https://books.google.com.br/books?
id=eFPqqMBK-p8C.
[29] David Sherrington and Scott Kirkpatrick. Solvable model of a spin-glass. Physical review
letters, 35(26):1792, 1975.
[30] Thearlismar Soares and Fabiano Fagundes. Aplicacao de redes neurais artificiais para o
diagnostico de patologias traumato ortopedicas dos membros inferiores. page 10. EN-
COINFO, 2012.
106 REFERÊNCIAS BIBLIOGRÁFICAS
[31] JL Van Hemmen and RG Palmer. The replica method and solvable spin glass model.
Journal of Physics A: Mathematical and General, 12(4):563, 1979.
[32] Gérard Weisbuch and Françoise Fogelman-Soulié. Scaling laws for the attractors of hop-
field networks. Journal de Physique Lettres, 46(14):623–630, 1985.