Algoritmos Recursivos

Introducao ao Processamento Estatstico de Sinais
Charles Casimiro Cavalcante

charles@gtel.ufc.br
Grupo de Pesquisa em Telecomunicaco

es Sem Fio GTEL
Departamento de Engenharia de Teleinformatica
Universidade Federal do Cear
a UFC
http://www.gtel.ufc.br/charles
c C. C. Cavalcante
Introduca
o ao Processamento Estatstico de Sinais
O processamento de sinais mudou! N ao estamos mais na era na
qual a informac
ao na forma de sinais eletricos e processada por
meio de tradicionais dispositivos analogicos. N os estamos
solidamente, e, para o futuro previsvel, irrevogavelmente, no
amago do processamento de sinais digitais (amostrados ou
discretos no tempo) aleatorios.
Charles W. Therrien, 1992

Discrete Random Signals and Statistical Signal Processing
c C. C. Cavalcante
Introduca
Conteudo do curso
1 Revis
ao de modelos probabilsticos
2 Analise de momentos de segunda ordem
3 Teoria da estimac
ao
4 Filtragem
otima
5 Predic
ao de sinais estacion
arios
6 Teoria da deteccao
7 Metodos recursivos no tempo
8 Filtragem adaptativa
c C. C. Cavalcante
Introduca
Parte VII
Algoritmos Recursivos no Tempo
c C. C. Cavalcante
Introduca
Introducao
Estruturas adaptativas: atualizac ao dos parametros para se

adequar `as caractersticas dos sinais de interesse
Regras de atualizac
ao: algoritmos de recurs
ao temporal
Escolha
1 Crit
erio: o que maximizar/minimizar?
2 Metodo de busca: como minimizar?
3 Complexidade: quanto se pode pagar pelo desempenho?
4 Velocidade de converg encia: qual o tempo
desejado/disponvel?
c C. C. Cavalcante
Introduca
Introducao - cont.
Estruturas de filtragem: FIR IIR

Escolha afeta complexidade e n
umero de interacoes para
atingir desempenho desejado
FIR
Estabilidade garantida
Criterio unimodal
Condicoes de estabilidade para algoritmo de atualizacao mais
facil
Problemas reais: maior complexidade de modelagem
IIR
Requer verificacao de estabilidade
Criterio multimodal
Possibilidade de garantir estabilidade do algoritmo de
adaptacao
Menor complexidade para modelar problemas reais
c C. C. Cavalcante
Introduca

Filtragem Adaptativa Filtro Otimo
Filtragem
otima (Wiener)
1 Aquisicao dos dados: obtenc
ao de Rx e pxd
2 otimo: wopt = R1
Determinacao dos filtro x pxd
3 Complexidade computacional M 3
Filtragem adaptativa
Adquirir os dados e otimizar o sistema adaptativo ao mesmo
tempo (complexidade computacional menor!)
Id
eia geral
d(n)
y(n)
x(n) w(n) e(n)
c C. C. Cavalcante
Introduca
Metodos de busca
Crit
erio: atualizar w(n) de forma a minimizar E e2 (n) .
Para o caso de w(n) com dois coeficientes w(n) = [ w0 w1 ]T ,
temos
25
20
1600
15
1400

10
1200
e2 (n)
5
1000
w0
800 0

600
5
E
400
10
200
15
0
40
20 30 20
20
0 10
0
20 10
w1 40 30
20
w0
25
25 20 15 10 5
w1
0 5 10 15 20 25
c C. C. Cavalcante
Introduca
Metodos de busca - cont.
Otimizac
ao interativa: a partir de uma condic
ao inicial w(0)
chegar a wopt para 0 < n N iteracoes
M etodos de busca: baseados nos metodos cl assicos de

otimizacao de 1a (gradiente) e 2a (Newton) ordens.
Dada a funcao J(w) = E 2

e (n) deseja-se que
w(n) w(n + 1) Jn+1 < Jn
c C. C. Cavalcante
Introduca
Considerando a funcao J(w) expandida em serie de Taylor em

torno do ponto w(n) tem-se

J
J(w)|w(n+1) = J(w)|w(n) + w(n + 1)
wT w(n)

1 T 2 J
+ w (n + 1) w(n + 1)
2 wwT w(n)
(209)
em que w(n + 1) = w(n + 1) w(n)
c C. C. Cavalcante
Introduca
Dois algoritmos importantes

1 baseado na expans
ao de 1a ordem
2 baseado na expans
ao de 2a ordem
Meta: Gerar w(n + 1) tal que J(w)|w(n+1) < J(w)|w(n)
c C. C. Cavalcante
Introduca

J
1a ordem: wT w(n)
w(n + 1)
Algoritmo steepest descent (descida mais ngreme)
E e2 (n) = d2 2wT pxd + wT Rx w

E e2 (n)

= 2p + 2R w xd x
w
Algoritmo steepest descent (gradiente determinstico)
w(n + 1) = w(n) 2 [Rx w(n) pxd ] (210)
Notar que ainda se faz necess

ario conhecer Rx e pxd !
c C. C. Cavalcante
Introduca
2a ordem: M
etodo de Newton
Temos que
2J
H(w) =
wwT (211)
= 2Rx
e a matriz Hessiana de J(w).
H(w) e uma matriz definida positiva (autocorrelacao), logo a

aproximacao quadratica tem um u
nico e bem definido ponto de
mnimo
J(w)
Meta: obter w(n + 1) tal que w = 0.
c C. C. Cavalcante
Introduca
Assim, temos na regra de Newton que
J(w)
w(n + 1) = w(n) + H1 (w)
w
= w(n) 2H1 (w) [Rx w(n) pxd ]
(212)

w(n + 1) = w(n) w(n) R1 p
| x{z xd}
wopt
Algoritmo de Newton

w(n + 1) = w(n) w(n) R1
x pxd (213)
c C. C. Cavalcante
Introduca
Ainda no algoritmo de Newton, suponha

=1
w(0) = 0
Na primeira iteracao temos
w(1) = R1
x pxd
Soluc
ao
otima em uma iterac
ao!
c C. C. Cavalcante
Introduca
Caractersticas do Steepest descent
O metodo de 1a ordem aproxima J(w) como uma funcao

linear e caminha nessa func
ao com o maior passo (maior
declividade) possvel
J
J1
J2 wi+1 = w J(w)
w0
w1
c C. C. Cavalcante
Introduca
Caractersticas do Steepest descent - cont.
Metodo linear algoritmo do gradiente determinstico
w(n + 1) = w(n) w J(w)

w(n + 1) = w(n) 2 [Rx w(n) pxd ]
c C. C. Cavalcante
Introduca
Caractersticas do algoritmo de Newton
O metodo de 2a ordem aproxima J(w) como uma funcao

quadratica e procura o mnimo desta func
ao
Encontrar um w que nos leve ao mnimo, ou seja, a uma
condicao de gradiente nulo, no passo i + 1.

J(w)
Obter wi+1 tal que =0
w wi+1
w J(w) + H(w)w = 0
w = H1 (w) w J(w)
Como H(w) = 2Rx tem-se
c C. C. Cavalcante
Introduca
Caractersticas do algoritmo de Newton - cont.
1
wi+1 = wi R1 w J(w)
2 x
wi+1 = wi + R1
x pxd wi
wi+1 = R1
x pxd
que e a pr
opria solucao
otima.
c C. C. Cavalcante
Introduca
Steepest descent Algoritmo de Newton
O algoritmo steepest decent busca encontrar, `a cada iteracao,

em qual direcao a func
ao decresce mais rapidamente
(gradiente descendente)
O metodo de Newton, calcula para a funcao, qual a direcao, a
partir do ponto inicial, que chega mais rapidamente ao ponto
otimo.
Metodo de Newton e mais complexo (inversao de matriz) e
mais rapido. Para J(w) quadr
atico, uma iteracao e suficiente
se = 1.
Steepest descent e mais simples, mas tem uma latencia maior
para convergir ao ponto otimo.
c C. C. Cavalcante
Introduca
Steepest decent Newton - cont.
10
2
w0
10
10 8 6 4 2 0 2 4 6 8 10
w1
Convergencia dos algoritmos steepest descent (azul) e de Newton

(vermelho). Passos sd = 0.1 e n = 1.
c C. C. Cavalcante
Introduca
Problemas
Equacoes necessitam conhecimento ou estimativa das

estatsticas Rx e pxd
Processamento caro e n
ao garante uma convergencia ao valor
desejado
Alternativa: aproximac
oes estoc
asticas
c C. C. Cavalcante
Introduca
Aproximacao estocastica
Origem
H. Robbins and S. Monro, A Stochastic Approximation Method,
The Annals of Mathematical Statistics, vol. 22, no. 3, pp.
400-407, 1951
Ideia: estimacao recursiva de um determinado n

umero de
parametros , de forma:
(n) = (n 1) (n) f [(n 1), x(n)] (214)
em que
x(n) = dados observados no tempo
(n) = seq uencia decrescente
f () = funcao dos dados e parametros
c C. C. Cavalcante
Introduca
Aproximacao estocastica - cont.
Exemplo
Sejam
(0) = 0
1
= n
f [(n 1), x(n)] = (n 1) x(n)
da decorre que
x(1) + x(2) + . . . + x(n)

(n) =
n
c C. C. Cavalcante
Introduca
1a observac ao: O algoritmo de Robbins-Monro converge para

f [(n 1), x(n)] = 0.
Supondo varias realizac

oes do algoritmo
E
opt e tal que {f [(n 1), x(n)]} = 0
No nosso caso (filtragem): quem e E {f [(n 1), x(n)]}?

Sabemos que w E {f [(n 1), x(n)]} = 0 para w = wopt
entao
e2 (n)
f [(n 1), x(n)] = (215)
w
c C. C. Cavalcante
Introduca
Partindo da aproximac ao da Eq. (215), a recurs

ao temporal para
aproximar o criterio de minimizar o erro quadr
atico medio seria do
tipo:
w(n + 1) = w(n) + 2(n + 1)x(n)e(n) (216)
em que e(n) = d(n) wT (n)x(n).
Se considerarmos (n + 1) = teremos ent

ao o algoritmo do
gradiente estocastico dado por
w(n + 1) = w(n) + 2x(n)e(n)
c C. C. Cavalcante
Introduca
Comparac
ao
Gradiente determinstico: Busca na direc

ao negativa do
gradiente
w(n + 1) = w(n) 2 [Rx w(n) pxd ]
Algoritmo de Newton: Mais rapido e mais complexo
w(n + 1) = w(n) w(n) R1 x pxd
Gradiente estoc
astico: Mais simples, menos requisitos,
desempenho pior
w(n + 1) = w(n) + 2x(n)e(n)
c C. C. Cavalcante
Introduca
Algoritmos estocasticos
Diferentes aproximac
oes podem ser realizadas
Meta e reduzir a complexidade dos algoritmos provendo uma
convergencia para o ponto
otimo
Algumas tecnicas s
ao discutidas a seguir
c C. C. Cavalcante
Introduca
Algoritmos estocasticos - cont.
Algoritmo LMS
O algoritmo LMS (Least Mean Square) e um algoritmo de busca

que utiliza uma simplificacao do vetor gradiente por meio de uma
modificacao na funcao custo (objetivo)
Propriedades
Simplicidade computacional
Prova de convergencia em ambiente estacion
ario
Convergencia nao-polarizada, em media, para a solucao otima
(Wiener)
c C. C. Cavalcante
Introduca
Algoritmo LMS - cont.
Se tomarmos o gradiente estoc

astico temos ent
ao
w(n + 1) = w(n) 2 [Rx w(n) pxd ]
mas, deseja-se trabalhar com estimativas das estatsticas no

instante n, uma vez que as mesmas podem n ao estar disponveis
completamente, entao teremos algo como
h i
w(n + 1) = w(n) 2 R b x (n)w(n) p
b xd (n) (217)
Entao, uma solucao possvel e fazer uma aproximacao das

estatsticas por seus valores instantaneos, ou seja
Rx = E
x(n)xT (n)

R b x (n) = x(n)xT (n)
pxd = E {x(n)d(n)}
(218)
b xd (n) = x(n)d(n)
p
c C. C. Cavalcante
Introduca
Desta forma, teremos

h i
w(n + 1) = w(n) 2 Rb x (n) p
b xd (n)

= w(n) 2 x(n)xT (n)w(n) x(n)d(n) (219)

= w(n) 2x(n) xT (n)w(n) d(n)
= w(n) 2x(n) [y(n) d(n)]
Entao, a equacao de recurs

ao do LMS e dada por:
Algoritmo LMS
w(n + 1) = w(n) + 2x(n)e(n) (220)
c C. C. Cavalcante
Introduca
Note que o algoritmo LMS possui a mesma regra de recursao que

a aproximacao do gradiente estoc
astico, por isto e comum usar a
mesma notacao para ambos.
Uma questao importante reside na garantia da convergencia do

algoritmo para os parametros otimos. Bem como observar se esta
convergencia e nao-polarizada.
c C. C. Cavalcante
Introduca
Gradiente: o gradiente do algoritmo converge para algum valor?
Tomando as express oes do gradiente para o algoritmo

determinstico e do LMS
det = 2 [Rx w(n) pxd ]
(221)
LMS = 2 x(n)xT (n)w(n) x(n)d(n)
podemos ver que as direc oes determinadas por ambos os

algoritmos sao diferentes (como esperado). Entretanto, se
tomarmos o valor medio no caso do LMS temos
E {LMS } = E

2 x(n)xT (n)w(n) x(n)d(n)

=2

E
x(n)xT (n) w(n) {x(n)d(n)}

E (222)
= 2 [Rx w(n) pxd ] = det
c C. C. Cavalcante
Introduca
Estabilidade: quais os valores de para os quais o algoritmo

converge?
Vamos considerar uma perturbac ao do vetor de coeficientes em

torno do filtro otimo, assim temos
w(n) = w(n) wopt (223)
Utilizando esta definic

ao, podemos escrever o LMS como
w(n + 1) = w(n) + 2e(n)x(n)

= w(n) + 2x(n) x(n)T wopt + b(n) x(n)T w(n)

= w(n) + 2x(n) eopt (n) x(n)T w(n)

= I 2x(n)x(n)T w(n) + 2eopt (n)x(n)
(224)
c C. C. Cavalcante
Introduca
Sabendo que eopt (n) = d(n) x(n)T wopt = b(n) temos entao, o
valor esperado de
E{w(n + 1)} =

E
I 2x(n)x(n)T w(n)

E
+ 2 {eopt (n)x(n)}
(225)
Assumindo independencia entre x(n), w(n) e eopt (n), temos

entao
E
{w(n + 1)} = I 2

E
x(n)x(n)T

{w(n)} E
= (I 2Rx ) {w(n)} E (226)
Um fator que nos ajuda e saber que podemos decompor a matriz

Rx como
Rx = QQT (227)
em que Q e a matriz (ortogonal) dos autovetores de Rx
c C. C. Cavalcante
Introduca
Pre-multiplicando entao a Eq. (226) por QT temos
E T
Q w(n + 1) = (I 2QT Rx Q)
T
Q w(n)

E (228)
Mas sabe-se ainda que
Rx = QQT
QT Rx = QT QQT
= QT
E podemos entao definir
v(n + 1) = E QT w(n + 1) (229)
que sao versoes rotacionadas dos erros dos coeficientes.
c C. C. Cavalcante
Introduca
Da, temos entao

v(n + 1) = v(n) 2v(n)
(230)
= (I 2)V(n)
Ou seja, para cada elemento vi (n + 1) do vetor v(n + 1) temos
vi (n + 1) = (1 2k )vi (n) (231)
Condic
ao de estabilidade:
|1 2k | < 1 1 < 1 2k < 1
1
0 < 2k < 2 0 < <
k (232)
1
Estabilidade: 0 < <
max
c C. C. Cavalcante
Introduca
Misadjustment (desajuste): quanto a soluc

ao do LMS difere da
solucao otima?
Tomando w(n) = wopt , teremos
w(n + 1) = wopt + 2x(n)e(n)

= wopt + 2x(n)[d(n) xT (n)wopt ]
= wopt + 2x(n)[xT (n)wopt + b(n) xT (n)wopt ]
w(n + 1) wopt = 2x(n)b(n)
(233)
E
Desta forma, podemos ver que {w(n + 1) wopt } = 0 mas que
a variancia nao e zero devido ao termo b(n).
impacta na vari
ancia do erro de ajuste
w(n + 1) ao final da convergencia fica em torno de wopt
c C. C. Cavalcante
Introduca
3
10
25
20
2
10
15
10
1
e2 (n)
10
5
w1
0
0
10
5
10
1
10
15
20
2
10
0 100 200 300 400
n
500 600 700 800 900 1000 25
25 20 15 10 5
w0
0 5 10 15 20 25
Convergencia do LMS Trajet

oria do LMS (azul) para o
(vermelho) para Jmin (azul) ponto
otimo (solucao de Wiener)
usando = 0.1 usando = 0.1
c C. C. Cavalcante
Introduca
Resumo:
Algoritmo com baixa complexidade
Converge, em media, para o filtro
otimo
Fator de passo influencia na velocidade de convergencia
Compromisso com o erro de desajuste
c C. C. Cavalcante
Introduca
Algoritmo LMS normalizado
Motivac
ao
O algoritmo LMS apresenta o fator de passo dependente das
caractersticas da correlac
ao
Para aumentar a velocidade de convergencia, aumenta-se o
fator de passo, mas o mesmo fornece um erro residual maior
Ideia: colocar os dados para servirem de regulacao ao
desajuste
c C. C. Cavalcante
Introduca
Algoritmo LMS normalizado - cont.
Sabendo que
w(n + 1) = w(n) + 2e(n)x(n) = w(n) + w(n)

e (234)
temos entao que
e2 (n) = d2 (n) + wT (n)x(n)xT (n)w(n) 2d(n)wT (n)x(n) (235)
Se usarmos uma troca de w(n)

e = w(n) + w(n),
e teremos entao:
ee2 (n) = e2 (n) + 2w

e T (n)x(n)xT (n)w(n)
e T (n)x(n)xT (n)w(n)
+ w e e T (n)x(n)
2d(n)w
(236)
c C. C. Cavalcante
Introduca
Entao, definindo
e2 (n) = ee2 (n) e2 (n)
e T (n)x(n)e(n) + w
= 2w e T (n)x(n)xT (n)w(n)
e
(237)
Meta: tornar e2 (n) negativo e mnimo pela escolha apropriada

de
Substituindo w(n)
e = 2e(n)x(n) na Eq. (237) tem-se
e2 (n) = 4e2 (n)xT (n)x(n) + 42 e2 (n)[xT (n)x(n)]2 (238)
e2 (n)
Valor de e dado por = 0, de onde tem-se
1
= (239)
2xT (n)x(n)
c C. C. Cavalcante
Introduca
Com isso, o algoritmo do LMS normalizado e ent

ao dado por
Algoritmo LMS Normalizado

w(n + 1) = w(n) + x(n)e(n) (240)
+ xT (n)x(n)
c C. C. Cavalcante
Introduca
3
10
2
10
1
10
e2 (n)
0
10
1
10
2
10
0 100 200 300 400 500 600 700 800 900 1000
n
Algoritmos LMS (azul) e LMS-Normalizado (vermelho) com mesmo fator
de passo LMS = LMS-Norm = 0.5, comparados com Jmin (preto)
c C. C. Cavalcante
Introduca
25
20
15
10
5
w1
10
15
20
25
25 20 15 10 5
w00 5 10 15 20 25
Trajet
orias dos algoritmos LMS (azul) e LMS-Normalizado (vermelho)
para o ponto
otimo
c C. C. Cavalcante
Introduca

Algoritmos Recursivos

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Algoritmos Recursivos

Caricato da

Copyright:

Formati disponibili

Introducao ao Processamento Estatstico de Sinais

Charles Casimiro Cavalcante

Grupo de Pesquisa em Telecomunicaco

Charles W. Therrien, 1992

Algoritmos Recursivos no Tempo

Estruturas adaptativas: atualizac ao dos parametros para se

Estruturas de filtragem: FIR IIR

M etodos de busca: baseados nos metodos cl assicos de

Dada a funcao J(w) = E  2

w(n) w(n + 1) Jn+1 < Jn

Considerando a funcao J(w) expandida em serie de Taylor em

Dois algoritmos importantes

Meta: Gerar w(n + 1) tal que J(w)|w(n+1) < J(w)|w(n)

E e2 (n) = d2 2wT pxd + wT Rx w

Algoritmo steepest descent (gradiente determinstico)

w(n + 1) = w(n) 2 [Rx w(n) pxd ] (210)

Notar que ainda se faz necess

H(w) e uma matriz definida positiva (autocorrelacao), logo a

Assim, temos na regra de Newton que

Ainda no algoritmo de Newton, suponha

Na primeira iteracao temos

O metodo de 1a ordem aproxima J(w) como uma funcao

Metodo linear algoritmo do gradiente determinstico

w(n + 1) = w(n) w J(w)

O metodo de 2a ordem aproxima J(w) como uma funcao

Como H(w) = 2Rx tem-se

O algoritmo steepest decent busca encontrar, `a cada iteracao,

Convergencia dos algoritmos steepest descent (azul) e de Newton

Equacoes necessitam conhecimento ou estimativa das

Ideia: estimacao recursiva de um determinado n

(n) = (n 1) (n) f [(n 1), x(n)] (214)

x(1) + x(2) + . . . + x(n)

1a observac ao: O algoritmo de Robbins-Monro converge para

Supondo varias realizac

No nosso caso (filtragem): quem e E {f [(n 1), x(n)]}?

Partindo da aproximac ao da Eq. (215), a recurs

Se considerarmos (n + 1) = teremos ent

w(n + 1) = w(n) + 2x(n)e(n)

Gradiente determinstico: Busca na direc

O algoritmo LMS (Least Mean Square) e um algoritmo de busca

Se tomarmos o gradiente estoc

w(n + 1) = w(n) 2 [Rx w(n) pxd ]

mas, deseja-se trabalhar com estimativas das estatsticas no

Entao, uma solucao possvel e fazer uma aproximacao das

Desta forma, teremos

Entao, a equacao de recurs

w(n + 1) = w(n) + 2x(n)e(n) (220)

Note que o algoritmo LMS possui a mesma regra de recursao que

Uma questao importante reside na garantia da convergencia do

Gradiente: o gradiente do algoritmo converge para algum valor?

Tomando as express oes do gradiente para o algoritmo

podemos ver que as direc oes determinadas por ambos os

Estabilidade: quais os valores de para os quais o algoritmo

Vamos considerar uma perturbac ao do vetor de coeficientes em

w(n) = w(n) wopt (223)

Utilizando esta definic

w(n + 1) = w(n) + 2e(n)x(n)

Assumindo independencia entre x(n), w(n) e eopt (n), temos

Um fator que nos ajuda e saber que podemos decompor a matriz

Pre-multiplicando entao a Eq. (226) por QT temos

Mas sabe-se ainda que

E podemos entao definir

v(n + 1) = E QT w(n + 1) (229)

Dada a funcao J(w) = E 2

E e2 (n) = d2 2wT pxd + wT Rx w

v(n + 1) = E QT w(n + 1) (229)