Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Informática
UFRGS Prof. Paulo Martins Engel
O ADALINE
• No contexto de classificação, o ADALINE [B. Widrow 1960] pode ser visto como um
perceptron com algoritmo de treinamento baseado em minimização de um índice de
desempenho médio sobre o arquivo de treinamento (algoritmo LMS).
• A especificação dos pesos do ADALINE segue critérios bem definidos que visam
minimizar o erro quadrático médio (EQM) na saída do ADALINE.
• O elemento adaptativo do ADALINE é o Combinador Linear Adaptativo (CLA), e a
saída do ADALINE pode ser binária, se a função de ativação utilizada for a hard-
limiter (degrau), ou contínua, se a função for do tipo sigmóide (ou linear).
• Quando a saída do ADALINE for contínua, o elemento realiza a tarefa de regressão.
• Bernard Widrow [1962] propôs o uso de redes de múltiplos ADALINEs,
MADALINEs, para problemas de classificação.
• Neste caso, a primeira camada era adaptativa e a segunda (de saída) era composta de
funções de limiar fixas (AND, OR, MAJ).
• O ADALINE é capaz de solucionar problemas linearmente separáveis não
determinísticos (com ruído).
2
Informática
UFRGS Prof. Paulo Martins Engel
Informática
UFRGS Prof. Paulo Martins Engel
Regressão
• O problema de estimar uma função a partir de um conjunto de
exemplos entrada-saída com algum ou nenhum conhecimento da forma
da função é comum a várias áreas, recebendo nomes distintos:
regressão, aproximação de funções, identificação de sistemas e
aprendizagem indutiva.
• No domínio das RN, este problema genérico é tratado como
aprendizagem supervisionada e na estatística como regressão.
• O poder computacional do ADALINE é equivalente a um regressor
linear.
• Entretanto, a saída do ADALINE pode ser modificada por uma função
de ativação não-linear, o que o torna um componente não-linear em
redes mais complexas capazes de aproximação de funções não-lineares.
4
Informática
UFRGS Prof. Paulo Martins Engel
Regressão linear
• O problema consiste em ajustar uma linha reta f(x) = ax + b a um conjunto T de p pontos:
p
y T = {(xi, yi)}
i=1
h1
h3 (x2, y2)
h2 (x3, y3)
(x5, y5)
(x1, y1)
(x4, y4) menor EQM
x
• Qual é a melhor solução? depende da métrica de avaliação
• h1: passa pelo maior número de pontos em T
• h2: passa pelos 2 pontos em T com valores extremos da entrada (x)
• h3: produz o menor erro quadrático médio (EQM) em T (hLMS: Least Mean Square ) 5
Informática
UFRGS Prof. Paulo Martins Engel
• Considere um fenômeno estocástico, modelado matematicamente por uma função f(x).
• Considere o desvio em termos estatísticos entre a função alvo f(x), correspondente ao
modelo matemático, e a função F(x, w) realizada por uma rede neural, modelo físico.
• O arquivo de treinamento para a RN representa um conjunto de realizações {xi, di} de
um vetor aleatório X (conjunto de variáveis independentes) e de um escalar aleatório D,
(variável dependente) que descrevem o fenômeno estocástico.
• A relação funcional (desconhecida) entre X e D é modelada por (modelo regressivo):
D = f(X) +
• onde é um erro de expectativa, aleatório, obedecendo uma distribuição normal com
desvio padrão centrada no valor alvo f(xi), que representa a nossa “ignorância” sobre
a dependência entre D e X, e f(·) é uma função determinística.
6
Informática
UFRGS
Hipóteses LMS e ML
• Supomos que a tarefa seja aprender uma função desconhecida do espaço das instâncias
(X) para o conjunto dos números reais (R), f : X R , considerando um espaço de
hipóteses H, consistindo de funções h : X R
• A tarefa do algoritmo de aprendizagem L é aprender f, dado H.
• Para tanto, dispõe-se de um conjunto de m exemplos na forma {xi, di} onde o valor alvo
di de cada exemplo está corrompido por um ruído aleatório, e obedecendo uma
distribuição normal com desvio padrão centrada no valor alvo f(xi), ou seja:
d i f ( x i ) ei
d
(x2, d2)
e1 e2 (x3, d3) (x5, d5)
e3
(x1, d1) e4 e5
(x4, d4) f(x)
Informática
UFRGS
Hipóteses LMS e ML
• Mostraremos que uma hipótese que minimiza a soma dos erros quadráticos (hLMS) é
também uma hipótese de máxima verossimilhança (hML).
• Uma hipótese de máxima verossimilhança é aquela que maximiza a probabilidade de o
conjunto de dados de treinamento (D) ter sido gerado por ela, ou seja:
Hipóteses LMS e ML
• Como assume-se que o ruído ei é normal com média zero e variância desconhecida 2,
cada di deve obedecer também a uma distribuição normal com variância 2 centrada no
valor alvo f(xi), ao invés do zero.
• Como p(di | h) expressa a probabilidade de di dado que uma determinada hipótese h
seja a descrição correta para a função alvo f, esta probabilidade será uma distribuição
normal de média = f(xi) = h(xi) e variância 2 desconhecida.
• Com isso, a hipótese ML pode ser escrita como:
m
1 d i h ( xi ) 2
hML arg max exp
h H i 1 2 2 2
• Alternativamente, podemos maximizar o logaritmo desta expressão:
m
1 d h ( xi ) 2
hML arg max
h H
ln
i 1 2
i
2 2
Informática
UFRGS
Hipóteses LMS e ML
m
1 d h ( xi ) 2
hML arg max
h H
ln
i 1 2
i
2 2
• Como o primeiro termo é uma constante, independente da hipótese h, ele pode ser
descartado:
m
d i h ( xi ) 2
hML arg max
h H
i 1 2 2
• Esta expressão mostra que a hipótese da máxima verossimilhança hML é aquela que
minimiza a soma dos erros quadráticos entre os valores de treinamento di e as
predições da hipótese h(xi), ou seja, equivalente à hipótese LMS (hLMS)
Informática
UFRGS Prof. Paulo Martins Engel
11
Informática
UFRGS Prof. Paulo Martins Engel
2. Definições
• Como o elemento adaptativo do ADALINE é o CLA, podemos definir o erro
linear instantâneo do ADALINE como sendo relativo à saída do CLA.
• Dado um conjunto de vetores de entrada pertencentes a uma de 2 classes
linearmente separáveis, o problema é encontrar o conjunto de pesos capaz de
associar cada vetor de entrada com o seu rótulo de classe.
• Dadas amostras (x1, d1), (x2, d2),…, (xk, dk),…, (xL, dL), de alguma função que
mapeie vetores de entrada x(i) para os valores desejáveis na saída d(i), determinar o
melhor vetor de pesos w* para um CLA realizar este mapeamento.
13
Informática
UFRGS Prof. Paulo Martins Engel
–1 –1 –1 – 0,5 – 0,5
–1 +1 +1 + 0,5 + 0,5
+1 –1 +1 + 0,5 +0,5
+1 +1 +1 + 1,5 – 0,5
f
L
Sendo < • > o operador valor esperado = 1
L k
k 1
15
Informática
UFRGS Prof. Paulo Martins Engel
w2
E min
w2 *
w1 *
w1
17
Informática
UFRGS Prof. Paulo Martins Engel
Exercício
• Resolução da equação de Wiener-Hopf para o OR de duas
entradas bipolares
x0 x1 x2 d
1
w0 x(1) +1 1 1 1
x1 w1
x(2) +1 1 +1 +1
v
y x(3) +1 +1 1 +1
x2 w2 x(4) +1 +1 +1 +1
19
Informática
UFRGS Prof. Paulo Martins Engel
pT < dk xkT > = 0,25 {[1 1 1] + [1 1 1] + [1 1 1] + [1 1 1]} = [0,5 0,5 0,5]
1 1 1 1 1 1 1 1 1 1 1 1
R < xk xkT > = 0,25 1 1 1 + 1 1 1 + 1 1 1 + 1 1 1
1 1 1 1 1 1 1 1 1 1 1 1
1 0 0
R = 0 1 0 I w* = R1 p = I.p = p [0,5 0,5 0,5] T
0 0 1 =
E min = < dk2 > pT.w* = 0,25
20
Informática
UFRGS Prof. Paulo Martins Engel
x1 x2 v = 0,5x1 + 0,5x2 + 0, 5 e
1 1 0,5 –0, 5
1 +1 0, 5 0, 5 EQM = 0, 25
+1 1 0, 5 0, 5
Informática
UFRGS Prof. Paulo Martins Engel
OR unipolar
x1 x2 v = 0,5x1 + 0,5x2 + 0,25 e
0 0 0,25 –0,25
0 +1 0,75 0,25
+1 0 0,75 0,25
+1 +1 1,25 –0,25
EQM = 0,0625
22
Informática
UFRGS Prof. Paulo Martins Engel
x1 x2 v =2x1 + 2x2 – 1 e
0 0 –1 1
0 +1 +1 0
+1 0 +1 0
+1 +1 +3 –2
EQM = 1,25
23
Informática
UFRGS Prof. Paulo Martins Engel
E
E(1)
E(k)
w2
Emin E(n)
w2 *
w1 *
w1
24
Informática
UFRGS Prof. Paulo Martins Engel
25
Informática
UFRGS Prof. Paulo Martins Engel
Aplicações do ADALINE
• Como o algoritmo de treinamento do ADALINE a cada iteração diminui o EQM, é
possível aplicá-lo com sucesso em problemas linearmente separáveis não
determinísticos.
• Neste caso, o EQM dá a medida de desempenho alcançada no treinamento.
w1.renda + w2.dívida = t
1000
800
Dívida
600 Mau
400 Bom
200
0
0 1000 2000 3000
Renda
26
Informática
UFRGS Prof. Paulo Martins Engel
Algoritmo µ -LMS
^ (e2(k))
• Gradiente do erro quadrado instantâneo: k E k ek2
w (k)
• Sendo: e (k) = d(k) y(k) e y(k) w(k)T .x(k)
E (k ) E (k ) e(k ) y (k )
• Aplicando a regra da cadeia das derivadas: k E
w (k ) e(k ) y (k ) w (k )
com:
E (k ) e 2 (k )
2e(k )
e(k ) e(k )
e(k )
d (k ) y (k ) 1
y (k ) y (k )
y (k )
w (k ) w (k )
w ( k )T x( k ) x( k )
E(k)
k E = – 2 e(k) . x(k)
w (k)
27
Informática
UFRGS Prof. Paulo Martins Engel
28
Informática
UFRGS Prof. Paulo Martins Engel
Informática
UFRGS Prof. Paulo Martins Engel
30
Informática
UFRGS Prof. Paulo Martins Engel
+1 +1
0 +0.5
v
-1
v 31
0
Informática
UFRGS Prof. Paulo Martins Engel
Algoritmo -LMS
• Minimiza o EQM pela descida mais íngreme do gradiente do erro
quadrado instantâneo, como no µ-LMS.
Algoritmo -LMS
^ (e2(k))
• Gradiente do erro quadrado instantâneo: k E k ek2
w (k)
E (k ) E (k ) e(k ) y (k ) v(k )
k E
w (k ) e(k ) y (k ) v(k ) w (k )
com:
E (k ) e(k ) y (k ) v(k )
2e(k ) 1 f (k ) x( k )
e(k ) y (k ) v(k ) w (k )
Então:
E(k)
k E = – 2 e(k) f v(k)) . x(k)
w (k)
33
Informática
UFRGS Prof. Paulo Martins Engel
34
Informática
UFRGS Prof. Paulo Martins Engel
0.8
0.5
0.6
0
-4 -2 0 2 4 0.4
-0.5
0.2
-1
0
-1.5 -4 -2 0 2 4
1.2 0.3
1 0.25
0.8 0.2
0.6 0.15
0.4 0.1
0.2 0.05
0 0
-4 -2 0 2 4 -4 -2 0 2 4
35
Informática
UFRGS Prof. Paulo Martins Engel
36
Informática
UFRGS Prof. Paulo Martins Engel
37
Informática
UFRGS Prof. Paulo Martins Engel
tanh(v)
tanh(v)
EQM = 0,000362