Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
scardua@lac.usp.br
jaime@lac.usp.br
anna.reali@poli.usp.br
Escola Politcnica da USP, Av. Prof. L. Gualberto, Trav. 3, No. 158, Cidade Universitria, So Paulo, SP
ABSTRACT
This paper describes the use of Reinforcement Learning to
the computation of optimal trajectories and anti-swing control of a ship unloader. The unloading cycle is divided into
six phases and an optimization problem is defined for each
of them. A TD(0) algorithm together with a multilayer perceptron neural network as a value function approximator is
used in the optimization. The results obtained are compared
to Optimal Control results.
KEYWORDS: Reinforcement Learning, Optimal Control,
RESUMO
Este trabalho descreve o uso de Aprendizado por Reforo
para a obteno de trajetrias timas e controle anti-balano
de um descarregador de navios. O ciclo de descarga dividido em seis etapas e, para cada uma delas, definido um
problema de otimizao. Para a soluo deste so utilizados um algoritmo TD(0) juntamente com uma rede neural
do tipo perceptron multicamada como um aproximador da
funo valor. Os resultados obtidos so comparados com resultados de Controle timo.
PALAVRAS-CHAVE: Aprendizado por Reforo, Controle
Artigo submetido em 20/12/2000
1a. Reviso em 5/12/2001; 2a. Reviso 8/8/2003
Aceito sob recomendao dos Eds. Associados Profs. Fernando
Gomide e Takashi Yoneyama
368
1 INTRODUO
Um problema importante nas operaes de descarga de navios a otimizao do movimento entre o navio e a moega,
respeitando restries impostas pelos equipamentos e satisfazendo condies de contorno especficas. O descarregador
de navios basicamente um sistema carro-pndulo em que
o comprimento do pndulo pode ser variado, independentemente do movimento do carro (figura 1). Uma caamba localizada na extremidade do cabo usada para transportar o
material a ser descarregado.
O problema da otimizao do movimento da caamba pode
ser encarado como um problema de deciso seqencial em
tempo discreto, no qual um controlador deve decidir, em cada
poca de deciso, qual a melhor ao a executar, considerando seu objetivo de longo prazo. A dinmica do movimento da caamba pode ser modelada na forma de um sistema de equaes diferenciais.
H diversas solues propostas para esse problema. Em Sakawa e Shindo (1982), os autores consideram a minimizao da oscilao de containers sob determinadas condies
de contorno. Um algoritmo para calcular a lei de controle
timo de tempo mnimo apresentado. Auernig e Troger
(1987) abordam o problema de transferncia de uma carga
iada em tempo mnimo por meio do Princpio do Mnimo
Ambiente
Aes
Sinal de Estado
2 O MODELO DO DESCARREGADOR DE
NAVIOS
Esta seo baseia-se integralmente no modelo proposto por
Auernig e Troger (1987). O descarregador pode ser modelado como um sistema carro-pndulo conforme ilustra a figura 3. denota a posio do carro em relao a uma origem
fixada, representa o comprimento do cabo1 e , o ngulo
de desvio do pndulo em relao vertical.
Em condies usuais de operao2 , um ngulo suficientemente pequeno de maneira que as equaes de movimento
podem ser linearizadas em torno de zero. Aplicando-se a formulao de Lagrange, obtm-se3 :
+
m
L
)
=
(
+ 2
m
T
FT
m
T
(1)
1 O comprimento do cabo definido como aquele entre o ponto de suspenso e o centro de massa da caamba.
2 O acento circunflexo utilizado para indicar variveis em forma
dimensional; sua ausncia indica que a varivel se encontra adimensiona medido em radianos, a
lizada com relao base definida a seguir. ,
nica exceo.
3 Os smbolos x
e x denotam derivadas com relao aos tempos dimensional e adimensional, respectivamente.
369
= u
(3)
min ) = (
= (
g)/(
uT max
g /
uT
max )/
min
min )/
= /
vT = (
vT g/
uT max ,
min o
em que u
T max a acelerao mxima do carro,
valor mnimo do comprimento do cabo ao longo de todo o
e g a
ciclo, vT a velocidade do carro, isto , vT =
acelerao da gravidade, obtm-se as equaes do sistema
na forma adimensional:
+ 2 +
= uT
= uT .
(4)
(5)
O ciclo de descarga foi dividido em seis fases, a saber, Partida do navio, Translao em direo moega, Chegada
moega, Partida da moega, Translao em direo ao navio e
Chegada ao navio. As trs primeiras fases so descritas em
detalhes a seguir e constituem a primeira metade do ciclo. As
trs restantes, por serem similares, so descritas apenas brevemente. Para cada fase foi adotada uma origem para a medida da posio e uma para a varivel tempo. Convenciona-se
que > 0 coresponde ao movimento do carro no sentido do
navio para a moega.
370
tpn =
(2)
max min
v
(6)
(0 t tpn ),
(7)
= 0, (0) = 0, (0)
=
pn ) = 0.
0, (t
pn ) = vT max , (tpn ) = 0, (t
Note que a condio (0) = 0 estabelece o ponto de partida
do carro acima do navio como a origem para a medida de posies. Alm disso, por simplicidade, as seguintes restries
so impostas:
1. a acelerao do carro uT pode tomar apenas os valores
0 ou 1;
2. a velocidade do carro vT no pode ser superior a vT max .
Note que a restrio 1 impede o carro de se movimentar para
a frente e para trs. Ela reduz tambm o nmero de aes de
controle possveis em cada poca de deciso. A restrio 2
representa um limite natural para o movimento do carro.
no instante final da etapa. O cabo mantido com comprimento constante e igual a min . A soluo que se obtm
nesse caso, obviamente, a mesma da fase Chegada Moega, exceto pela troca dos papis entre os instantes inicial e
final, assim como das condies de contorno.
=
contorno:(0) = 0, (0)
O aspecto mais importante no contexto de PDMs a Propriedade de Markov. Diz-se que um problema de deciso
seqencial tem a Propriedade de Markov se a deciso no incio do passo t pode ser tomada como uma funo apenas do
estado no mesmo instante st . Em outras palavras, a Propriedade de Markov estabelece que a funo de transio de
estados e a funo de reforo so independentes de qualquer
371
4 SOLUO DO PROBLEMA
Esta seo descreve os passos envolvidos na soluo do problema utilizando AR. Deve-se notar que a soluo da Partida
da moega simtrica no tempo com relao da Chegada
moega. Por outro lado, a soluo da Chegada ao navio
guarda certa similaridade com a da Partida do navio. Em
vista disso, apenas as solues correspondentes s fases Partida do navio, Translao rumo moega e Chegada moega
so apresentadas.
4.1 Implementao
Para tratar o problema de controle apresentado como um
PDM, o sistema de AR ilustrado na figura 2 deve ser implementado como um sistema a tempo discreto. O sistema
ento simulado com uma ao de controle escolhida em cada
passo de discretizao. O aprendizado realizado independentemente para cada fase do movimento, ou seja, cada fase
simulada at que um resultado satisfatrio seja obtido.
O bloco Ambiente da figura 2 implementado por um simulador que descreve as respostas dinmicas do sistema a
aes de controle e o bloco Sistema Aprendiz implementado na forma de um algoritmo de aprendizado TD(0) (Sutton
e Barto, 1998). No que se segue, os componentes do sistema
de AR so descritos em detalhes.
4.1.1
O Simulador
No incio de cada episdio de simulao, iniciam-se as variveis de estado do sistema com o valor inicial correspondente
quela fase. Em seguida, o simulador executa o seguinte ciclo:
1. L a ao a executar. Esta ao deve ter sido selecionada
pelo Sistema Aprendiz.
2. Avana uma unidade de tempo de simulao integrando
as equaes diferenciais que descrevem o sistema.
372
O Sistema Aprendiz
5 RESULTADOS
No incio de cada passo de simulao, o algoritmo TD(0) escolhe a ao que ele avalia como sendo aquela capaz de gerar
a maior recompensa a longo prazo. Para cada par estado-ao
possvel, esta estimativa traduzida por um nmero real chamado valor Q (Watkins e Dayan, 1992). O valor Q de um
par estado-ao atualizado aps cada transio de estados.
Em essncia, tudo que for aprendido estar codificado nos
valores de Q. O modelo de horizonte infinito descontado foi
usado para o valor cumulativo esperado adquirido por seguir
uma poltica arbitrria a partir do estado inicial si .
, , .
O estado do simulador composto por , ,
Estas
so todas variveis contnuas, o que leva a um nmero infinito de estados possveis. Entretanto, para fins de simulao,
o nmero de estados possveis finito. Este fato pode ser
observado facilmente considerando que:
1. Para cada fase do movimento os episdios de simulao
sempre tm uma durao mxima de tempo e iniciam
com as mesmas condies iniciais.
2. O nmero de aes de controle possveis em cada poca
de deciso limitado (finito).
3. Ao tomar a ao at quando no estado st , o sistema
conduzido ao estado st+1 com probabilidade 1, onde
st+1 determinado pela dinmica do sistema.
Note, entretanto, que esse nmero cresce drasticamente com
o tempo de simulao. Utilizando um passo de 0,05s e considerando simulaes de 6s, h 120 pocas de deciso. Como
o nmero de aes de controle possveis em cada poca de
deciso 2, ento h 2120 seqncias de controle possveis.
373
min .
O tempo total de processamento foi de 56s.
4 /s, = min .
374
critas acima.
A seqncia de aes de controle em funo do tempo mostrada na figura 5. A fase Partida do navio tem uma durao
de aproximadamente 5,7s e contm dois pulsos de acelerao. De maneira similar, a fase Chegada moega dura 3,8s
e a seqncia de aes de controle composta de dois pulsos
de desacelerao. A velocidade do carro e a sua posio em
funo do tempo so apresentadas nas figuras 6 e 7, respectivamente.
As figuras 8 e 9 mostram, respectivamente, o ngulo de desvio do pndulo em relao vertical e sua velocidade angular
em funo do tempo. Nota-se, pois, que ocorrem movimentos angulares para trs e para a frente, respectivamente, durante as fases Partida do navio e Chegada moega.
Os resultados apresentados acima reproduziram aqueles obtidos por meio de uma abordagem mais tradicional, baseada na discretizao do problema, conforme consta em (Cruz
et al., 1999). Em particular, o valor numrico ali relatado de
15,23s para a durao do semi-ciclo foi reproduzido exatamente pelo procedimento aqui descrito.
Deve-se notar que a abordagem baseada em AR utiliza o modelo matemtico do problema considerado apenas para simu-
375
6 CONCLUSES
REFERNCIAS
Todo o conhecimento disponvel a respeito do sistema a controlar deve ser utilizado para a definio da funo recompensa. Neste trabalho admite-se que no haja conhecimento
adequado para avaliar transies de estado intermedirias.
Este fato tem um impacto negativo no tempo necessrio para
o aprendizado.
Outro fator que tem influncia no desempenho do controlador o conjunto inicial de pesos da RN. Os tempos de convergncia dependem fortemente desse conjunto, como sugerem os diferentes tempos de convergncia obtidos em correspondncia s diversas fases do movimento.
Foram definidos estados objetivo de dificuldades crescentes. Esta abordagem produziu melhores resultados do que
a forma tradicional de definir apenas o objetivo final para o
controlador. Este comportamento pode ser explicado pelo
fato de que um objetivo mais difcil de atingir acarreta punies mais severas, o que pode fazer com que os pesos da RN
oscilem ou mesmo atinjam a saturao, uma vez que no est
sendo utilizado passo decrescente de aprendizado.
AGRADECIMENTOS
376
Tesauro, G. (1995). Temporal difference learning and tdgammon, Communications of the ACM 38(3): 815825.
Watkins, C. e Dayan, P. (1992). Q-learning, Machine Learning 8: 279292.