Sei sulla pagina 1di 9

CONTROLE TIMO DE DESCARREGADORES DE NAVIOS UTILIZANDO

APRENDIZADO POR REFORO

Leonardo Azevedo Scrdua

Jos Jaime da Cruz

scardua@lac.usp.br

jaime@lac.usp.br

Anna Helena Reali Costa

anna.reali@poli.usp.br

Escola Politcnica da USP, Av. Prof. L. Gualberto, Trav. 3, No. 158, Cidade Universitria, So Paulo, SP

ABSTRACT
This paper describes the use of Reinforcement Learning to
the computation of optimal trajectories and anti-swing control of a ship unloader. The unloading cycle is divided into
six phases and an optimization problem is defined for each
of them. A TD(0) algorithm together with a multilayer perceptron neural network as a value function approximator is
used in the optimization. The results obtained are compared
to Optimal Control results.
KEYWORDS: Reinforcement Learning, Optimal Control,

Anti-Swing Control, Ship Unloaders, Neural Networks.

RESUMO
Este trabalho descreve o uso de Aprendizado por Reforo
para a obteno de trajetrias timas e controle anti-balano
de um descarregador de navios. O ciclo de descarga dividido em seis etapas e, para cada uma delas, definido um
problema de otimizao. Para a soluo deste so utilizados um algoritmo TD(0) juntamente com uma rede neural
do tipo perceptron multicamada como um aproximador da
funo valor. Os resultados obtidos so comparados com resultados de Controle timo.
PALAVRAS-CHAVE: Aprendizado por Reforo, Controle
Artigo submetido em 20/12/2000
1a. Reviso em 5/12/2001; 2a. Reviso 8/8/2003
Aceito sob recomendao dos Eds. Associados Profs. Fernando
Gomide e Takashi Yoneyama
368

timo, Controle Anti-Balano, Descarregadores de Navios,


Redes Neurais.

1 INTRODUO
Um problema importante nas operaes de descarga de navios a otimizao do movimento entre o navio e a moega,
respeitando restries impostas pelos equipamentos e satisfazendo condies de contorno especficas. O descarregador
de navios basicamente um sistema carro-pndulo em que
o comprimento do pndulo pode ser variado, independentemente do movimento do carro (figura 1). Uma caamba localizada na extremidade do cabo usada para transportar o
material a ser descarregado.
O problema da otimizao do movimento da caamba pode
ser encarado como um problema de deciso seqencial em
tempo discreto, no qual um controlador deve decidir, em cada
poca de deciso, qual a melhor ao a executar, considerando seu objetivo de longo prazo. A dinmica do movimento da caamba pode ser modelada na forma de um sistema de equaes diferenciais.
H diversas solues propostas para esse problema. Em Sakawa e Shindo (1982), os autores consideram a minimizao da oscilao de containers sob determinadas condies
de contorno. Um algoritmo para calcular a lei de controle
timo de tempo mnimo apresentado. Auernig e Troger
(1987) abordam o problema de transferncia de uma carga
iada em tempo mnimo por meio do Princpio do Mnimo

Revista Controle & Automao/Vol.14 no.4/Outubro, Novembro e Dezembro 2003

o sistema de aprendizado esquematizado na figura 2 capaz


de aprender a resolver uma tarefa complexa por meio de repetidas interaes com o ambiente. As nicas informaes
Sinal de Reforo
Sistema
Aprendiz

Ambiente
Aes

Sinal de Estado

Figura 2: Esquema de um sistema de AR.

Figura 1: Esquema do descarregador de navios.

de Pontryagin. A modelagem mecnica e eltrica do sistema


realizada em detalhes. Tanto o movimento do carro portacaamba, como o movimento de iamento so determinados
sujeitos restrio de que a caamba deve estar em repouso
no incio e no final do movimento. O problema de clculo
das trajetrias de tempo mnimo para guindastes tratado
por Golafshani e Aplevich (1995). Um modelo matemtico
do sistema construdo, sendo obtidas as trajetrias timas
sujeitas a restries nos estados e no controle. Uma abordagem heurstica, baseada em lgica fuzzy, apresentada por
Liang e Koh (1997) para reduzir as oscilaes no problema
do movimento de cargas.
H formas alternativas de tratar este problema que no se
traduzem na soluo de um sistema de equaes diferenciais
com condies no contorno. Pode-se modelar o problema de
otimizao do movimento do descarregador de navios como
um Processo de Deciso de Markov (PDM). Em vista da
dimenso do problema, impraticvel utilizar Programao
Dinmica ou tcnicas de Aprendizado por Reforo (AR) que
utilizam representao tabular para a funo valor. Como alternativa pode-se utilizar uma forma compacta de representar
esta funo. um fato bastante conhecido que as Redes Neurais (RNs) do tipo Perceptron Multi-Camada (PMC), treinadas com o algoritmo de retro-propagao so aproximadores
universais de funes contnuas (Cybenko, 1989). Os PMCs
tm sido usados com sucesso em aplicaes de AR que envolvem espaos de estados de dimenses elevadas, tais como
o jogo de gamo (Tesauro, 1995) e o controle de sistemas de
elevadores (Crites e Barto, 1998).
Neste trabalho um algoritmo de AR baseado em diferenas
temporais (Sutton e Barto, 1998) com um aproximador de
funes PMC utilizado para lidar com o nmero grande de
possveis estados do sistema. A idia bsica em AR que

disponveis so o estado do ambiente e um sinal escalar de


reforo (recompensa), que gerado pelo ambiente em resposta a transies de estado produzidas pelas aes executadas pelo sistema aprendiz. O objetivo de um aprendiz AR
consiste em aprender uma poltica de escolha de aes, em
cada estado, de forma a maximizar o reforo cumulativo no
tempo.
O restante deste artigo est estruturado da seguinte forma:
a seo 2 descreve a tarefa do descarregador de navios e o
modelo usado para ela. A tarefa foi dividida em seis subtarefas, sendo fornecidos, para cada subtarefa, uma descrio
e seu respectivo conjunto de condies de contorno. A seo
3 apresenta a abordagem AR desenvolvida para solucionar a
tarefa. O ambiente experimental assim como os algoritmos
desenvolvidos so descritos na seo 4. A seo 5 apresenta
os resultados obtidos pelo uso da abordagem AR aplicada
otimizao do movimento do descarregador e, finalmente, na
seo 6 as concluses so apresentadas.

2 O MODELO DO DESCARREGADOR DE
NAVIOS
Esta seo baseia-se integralmente no modelo proposto por
Auernig e Troger (1987). O descarregador pode ser modelado como um sistema carro-pndulo conforme ilustra a figura 3. denota a posio do carro em relao a uma origem
fixada, representa o comprimento do cabo1 e , o ngulo
de desvio do pndulo em relao vertical.
Em condies usuais de operao2 , um ngulo suficientemente pequeno de maneira que as equaes de movimento
podem ser linearizadas em torno de zero. Aplicando-se a formulao de Lagrange, obtm-se3 :

 +

m
L  
 
 )
=
(
+ 2
m
T

FT
m
T

(1)

1 O comprimento do cabo definido como aquele entre o ponto de suspenso e o centro de massa da caamba.
2 O acento circunflexo utilizado para indicar variveis em forma
dimensional; sua ausncia indica que a varivel se encontra adimensiona medido em radianos, a
lizada com relao base definida a seguir. ,
nica exceo.
3 Os smbolos x
 e x denotam derivadas com relao aos tempos dimensional e adimensional, respectivamente.

Revista Controle & Automao/Vol.14 no.4/Outubro, Novembro e Dezembro 2003

369

2.1 Partida do Navio

Esta fase definida da seguinte forma. Inicialmente, tanto o


carro como a caamba so supostos em repouso num dado
ponto acima do navio; o comprimento do cabo tem seu valor mximo (max ). O iamento do cabo e o movimento do
carro iniciam-se simultaneamente no instante que se convenciona como sendo t = 0. O iamento da caamba realizado
a velocidade constante v at que um dado valor min do
comprimento do cabo seja alcanado. Sendo assim, a durao desta fase dada por:

Figura 3: Esquema do sistema carro-pndulo.


  + g =
 + 2


para o caso em que a poltica de iamento da caamba fi t) dada. Nestas equaes,


xada a priori, isto , a funo (
T a massa total do carro e FT
m
L a massa da caamba, m
a fora de trao do carro.
H duas formas de controle do carro: na primeira, a fora de
trao a varivel de controle; na segunda, considera-se que
a posio do carro controlada e a acelerao u
T deste a
varivel de controle. Este ltimo caso o considerado neste
trabalho e, conforme Auernig e Troger (1987), fazendo-se
T = 0 na equao 1, obtm-se:
m
L /m
T ,

 = u

(3)

que, em conjunto com a equao 2, constitui o modelo do


sistema na forma dimensional.
Definindo-se o seguinte conjunto de variveis adimensionais:

min
uT = u
T /
uT max
t = t g/

min ) = (
= (
g)/(
uT max
g /
uT
max )/

min
min )/
= /
vT = (
vT g/
uT max ,
min o
em que u
T max a acelerao mxima do carro,
valor mnimo do comprimento do cabo ao longo de todo o
 e g a
ciclo, vT a velocidade do carro, isto , vT =
acelerao da gravidade, obtm-se as equaes do sistema
na forma adimensional:

+ 2 +

= uT
= uT .

(4)
(5)

O ciclo de descarga foi dividido em seis fases, a saber, Partida do navio, Translao em direo moega, Chegada
moega, Partida da moega, Translao em direo ao navio e
Chegada ao navio. As trs primeiras fases so descritas em
detalhes a seguir e constituem a primeira metade do ciclo. As
trs restantes, por serem similares, so descritas apenas brevemente. Para cada fase foi adotada uma origem para a medida da posio e uma para a varivel tempo. Convenciona-se
que > 0 coresponde ao movimento do carro no sentido do
navio para a moega.
370

tpn =

(2)

max min
v

(6)

e a funo (t) resulta expressa por


(t) = max v t

(0 t tpn ),

(7)

que deve ser usada na equao 5. Desta forma, a dinmica do


sistema dada por um conjunto de duas equaes diferenciais lineares de 2a. ordem, sendo a segunda delas (5), variante
no tempo.
O objetivo desta fase maximizar a distncia percorrida pelo
carro durante o iamento da caamba. Admite-se que o intervalo de tempo tpn seja suficiente para o carro atingir sua
velocidade mxima vT max .
No instante em que o iamento termina, deseja-se que a caamba esteja em repouso com relao ao carro e na posio
vertical. Alm disso, a velocidade do carro deve ter atingido
seu valor mximo vT max .
A descrio acima conduz ao seguinte conjunto de condi
es de contorno (0) = 0, (0)

= 0, (0) = 0, (0)
=
pn ) = 0.
0, (t
pn ) = vT max , (tpn ) = 0, (t
Note que a condio (0) = 0 estabelece o ponto de partida
do carro acima do navio como a origem para a medida de posies. Alm disso, por simplicidade, as seguintes restries
so impostas:
1. a acelerao do carro uT pode tomar apenas os valores
0 ou 1;
2. a velocidade do carro vT no pode ser superior a vT max .
Note que a restrio 1 impede o carro de se movimentar para
a frente e para trs. Ela reduz tambm o nmero de aes de
controle possveis em cada poca de deciso. A restrio 2
representa um limite natural para o movimento do carro.

2.2 Translao em Direo Moega


Durante esta fase o carro se move com velocidade mxima
vT max em direo moega e o comprimento do cabo man-

Revista Controle & Automao/Vol.14 no.4/Outubro, Novembro e Dezembro 2003

tido constante e igual a min . Uma vez que o movimento do


carro retilneo e uniforme, a caamba permanece no mesmo
estado em que se encontrava ao final da etapa Partida do navio, a saber, em repouso com relao ao carro e na posio
vertical.

no instante final da etapa. O cabo mantido com comprimento constante e igual a min . A soluo que se obtm
nesse caso, obviamente, a mesma da fase Chegada Moega, exceto pela troca dos papis entre os instantes inicial e
final, assim como das condies de contorno.

A durao desta fase depende dos resultados da prxima fase,


uma vez que esta determina a distncia necessria para o
carro desacelerar e parar sobre a moega.

A etapa Translao em direo ao navio idntica fase


Translao em direo moega, pois o movimento do carro
retilneo e uniforme.

2.3 Chegada Moega


Nesta fase, supe-se o carro se movendo inicialmente em direo moega com velocidade vT max e a caamba admitida em repouso com relao ao carro e na posio vertical. O
objetivo minimizar a distncia de frenagem necessria para
parar o carro de maneira que, no final desta fase, a caamba
esteja novamente em repouso na vertical. O comprimento do
cabo mantido constante e igual a min .
A durao desta fase no conhecida a priori e deve ser
obtida pelo controlador. Denotando-a por tcm e adotando
a origem de tempo t = 0 como o instante em que a
fase se inicia, tem-se o seguinte conjunto de condies de

=
contorno:(0) = 0, (0)

= vT max , (0) = 0, (0)


cm ) = 0.
0, (t
cm ) = 0, (tcm ) = 0, (t
Note-se que a condio (0) = 0 fixa o ponto inicial da frenagem como a origem para a posio do carro. Em outras
palavras, a distncia de frenagem (tcm ) define o ponto em
que o carro deve estar no incio desta fase de modo que, no
final da fase, a caamba esteja exatamente na posio de descarga desejada acima da moega.
Alm disso, por simplicidade, supe-se que as seguintes restries devam ser satisfeitas:

Por fim, no que se refere troca de papis entre instantes e


condies iniciais e finais, a Chegada ao navio e a Partida
do navio guardam entre si a mesma semelhana que existe
entre as duas primeiras etapas mencionadas no incio desta
seo. Contudo, como os movimentos verticais da caamba
tm sentidos opostos nas duas etapas, as solues so distintas, pois dependem de (que negativa para a Partida do
navio e positiva para a Chegada ao navio).

3 O APRENDIZADO POR REFORO


De acordo com (Crites e Barto, 1998), da perspectiva da teoria de controle, as tcnicas de AR so formas de obter solues para problemas de controle timo estocstico em que o
agente que toma as decises um controlador e o ambiente
o sistema a controlar. Dentro deste esquema, o objetivo
maximizar um dado ndice de desempenho. O problema
de deciso seqencial a resolver modelado como sendo um
PDM em que o objetivo do agente aprendiz maximizar o
reforo recebido durante sua vida.
Formalmente, um PDM definido como sendo (S, A, R, T )
(Kaelbling et al., 1996), onde:
S o conjunto de estados;
A o conjunto de aes;

1. a acelerao do carro uT pode tomar apenas os valores


0 ou -1;

R uma funo de reforo escalar, R : S A ;

2. a velocidade do carro vT no pode ser inferior a 0.

T uma funo de transio de estado, T : S A (S),


onde um membro de (S) uma distribuio de probabilidade sobre S. T (s, a, s ) representa a probabilidade de alcanar o estado s a partir de s, executando a ao a.

Uma vez que constante durante esta fase, tem-se = 0


na equao 5.

A tarefa de um agente AR consiste em aprender, por tentativa


e erro, a poltica : S A que mapeia o estado corrente s
na ao a A desejada a ser executada em s S.

2.4 Demais Fases


As fases restantes do ciclo de descarga so bastante similares
s descritas acima.
A etapa Partida da moega anloga Chegada moega. O
objetivo acelerar o carro de volta em direo ao navio desde
o repouso at sua velocidade mxima. Considera-se a caamba inicialmente em repouso na posio vertical e desejase que ela resulte nessa mesma condio em relao ao carro

O aspecto mais importante no contexto de PDMs a Propriedade de Markov. Diz-se que um problema de deciso
seqencial tem a Propriedade de Markov se a deciso no incio do passo t pode ser tomada como uma funo apenas do
estado no mesmo instante st . Em outras palavras, a Propriedade de Markov estabelece que a funo de transio de
estados e a funo de reforo so independentes de qualquer

Revista Controle & Automao/Vol.14 no.4/Outubro, Novembro e Dezembro 2003

371

estado prvio do ambiente ou das aes prvias executadas


pelo agente aprendiz.
O problema de controle das oscilaes do pndulo apresenta
a Propriedade de Markov uma vez que, dado o estado com , , ,
posto por , ,
no necessrio considerar a histria
passada do sistema para tomar uma deciso num dado instante.

4 SOLUO DO PROBLEMA
Esta seo descreve os passos envolvidos na soluo do problema utilizando AR. Deve-se notar que a soluo da Partida
da moega simtrica no tempo com relao da Chegada
moega. Por outro lado, a soluo da Chegada ao navio
guarda certa similaridade com a da Partida do navio. Em
vista disso, apenas as solues correspondentes s fases Partida do navio, Translao rumo moega e Chegada moega
so apresentadas.

4.1 Implementao
Para tratar o problema de controle apresentado como um
PDM, o sistema de AR ilustrado na figura 2 deve ser implementado como um sistema a tempo discreto. O sistema
ento simulado com uma ao de controle escolhida em cada
passo de discretizao. O aprendizado realizado independentemente para cada fase do movimento, ou seja, cada fase
simulada at que um resultado satisfatrio seja obtido.
O bloco Ambiente da figura 2 implementado por um simulador que descreve as respostas dinmicas do sistema a
aes de controle e o bloco Sistema Aprendiz implementado na forma de um algoritmo de aprendizado TD(0) (Sutton
e Barto, 1998). No que se segue, os componentes do sistema
de AR so descritos em detalhes.
4.1.1

Clculo do Reforo Associado Transio de Estados. Para


alguns problemas formulados como PDMs, h uma escolha
natural para o sinal de reforo (Singh e Bertsekas, 1996). Infelizmente, neste caso, no existem quantidades associadas
tarefa que possam ser diretamente usadas como reforo. A
soluo adotada envolveu a definio de um tempo limite tgs
para finalizar um episdio de simulao. Quando o tempo
de simulao atinge este limite pr-estabelecido, o estado do
descarregador comparado ao estado final desejado da subtarefa correspondente. O reforo ento determinado atravs
da diferena entre o estado corrente e o estado final considerado, indicando ocorrncia de erros. O procedimento dedicado ao clculo deste reforo pode ser descrito como:
1. Se o limite de tempo tgs foi atingido:
(a) Se o sistema no est no estado final, ento ocorreu uma violao de restrio: retorne como reforo o negativo do valor absoluto da diferena escalar entre os valores atual e desejado da primeira
varivel de estado que no satisfaz a condio desejada para o estado final.
(b) Se o estado final desejado foi atingido: termine a
simulao.
2. Retorne 0 (zero) como reforo.
Observe que este procedimento avalia somente as situaes
extremas, aplicando uma punio caso o sistema no tenha chegado ao estado final dentro do limite de tempo prestabelecido ou terminando a simulao caso o objetivo tenha sido alcanado. Para todas as outras transies intermedirias, zero retornado como reforo, significando que o
simulador no sabe como avaliar tais transies. Esta falta
de conhecimento causa um impacto negativo no tempo de
aprendizado, uma vez que o algoritmo TD(0) no pode adquirir conhecimento a partir de tais transies.

O Simulador

No incio de cada episdio de simulao, iniciam-se as variveis de estado do sistema com o valor inicial correspondente
quela fase. Em seguida, o simulador executa o seguinte ciclo:
1. L a ao a executar. Esta ao deve ter sido selecionada
pelo Sistema Aprendiz.
2. Avana uma unidade de tempo de simulao integrando
as equaes diferenciais que descrevem o sistema.

Quando ocorre uma violao de restrio, o simulador inicia


uma nova simulao desde seu incio, considerando como
condies iniciais do procedimento de integrao aquelas
correspondentes fase que est sendo otimizada.
Otimizao do tempo. O procedimento de atribuio de reforo verifica se o sistema atingiu o estado final desejado
apenas aps o decurso de um intervalo tempo tgs dado pelo
usurio. O processo de otimizao do tempo para cada fase
executado expondo o controlador a uma seqncia de tempos
de simulao decrescentes, conforme descrito a seguir:

3. Armazena o estado do sistema para o prximo passo de


discretizao.

1. Leia o valor inicial de tgs .

4. Calcula o reforo imediato que se segue transio de


estados.

2. Atribua ao estado inicial o valor correspondente fase


atual.

372

Revista Controle & Automao/Vol.14 no.4/Outubro, Novembro e Dezembro 2003

3. Inicie o controlador sem qualquer conhecimento prvio.


4. Inicie o contador de tempo.
5. Enquanto o contador de tempo for inferior a 20 minutos
(valor emprico):
(a) Avana um passo na simulao.
(b) Se o estado do sistema for igual ao estado desejado:
i. Mantenha a soluo obtida como candidata
soluo final.
ii. Reduza tgs .
iii. Calcule o reforo baseado na diferena entre
o estado atual e o final desejado.
iv. Atualize o conhecimento do controlador.
6. Retorne a soluo candidata como soluo final.
4.1.2

O Sistema Aprendiz

O nmero de estados possveis torna impraticvel o uso de


uma representao tabular para armazenar os valores Q. A
soluo adotada utiliza uma RN para representar de forma
compacta esses valores. A RN escolhida um PMC com 7
ns na camada de entrada (5 ns para as variveis de estado
e 2 ns para as duas possveis aes de controle), 20 ns
sigmoidais na nica camada escondida e um n na camada
de sada, o qual soma as sadas de todos os ns escondidos.
A RN treinada com o algoritmo de retro-propagao
(Haykin, 1999). O conjunto de pesos iniciais escolhido
aleatoriamente no intervalo [-1,1]. A mesma semente utilizada, o que leva mesma distribuio inicial de pesos para
todas as fases do movimento.
Com o propsito de aumentar a velocidade de aprendizado,
cada fase do movimento controlada por uma RN, o que significa que um conjunto diferente de pesos aprendido para
cada fase da tarefa do descarregador de navios.

5 RESULTADOS

No incio de cada passo de simulao, o algoritmo TD(0) escolhe a ao que ele avalia como sendo aquela capaz de gerar
a maior recompensa a longo prazo. Para cada par estado-ao
possvel, esta estimativa traduzida por um nmero real chamado valor Q (Watkins e Dayan, 1992). O valor Q de um
par estado-ao atualizado aps cada transio de estados.
Em essncia, tudo que for aprendido estar codificado nos
valores de Q. O modelo de horizonte infinito descontado foi
usado para o valor cumulativo esperado adquirido por seguir
uma poltica arbitrria a partir do estado inicial si .
, , .
O estado do simulador composto por , ,
Estas
so todas variveis contnuas, o que leva a um nmero infinito de estados possveis. Entretanto, para fins de simulao,
o nmero de estados possveis finito. Este fato pode ser
observado facilmente considerando que:
1. Para cada fase do movimento os episdios de simulao
sempre tm uma durao mxima de tempo e iniciam
com as mesmas condies iniciais.
2. O nmero de aes de controle possveis em cada poca
de deciso limitado (finito).
3. Ao tomar a ao at quando no estado st , o sistema
conduzido ao estado st+1 com probabilidade 1, onde
st+1 determinado pela dinmica do sistema.
Note, entretanto, que esse nmero cresce drasticamente com
o tempo de simulao. Utilizando um passo de 0,05s e considerando simulaes de 6s, h 120 pocas de deciso. Como
o nmero de aes de controle possveis em cada poca de
deciso 2, ento h 2120 seqncias de controle possveis.

Esta seo mostra os resultados obtidos da otimizao do


movimento do descarregador de navios. As simulaes foram realizadas para diversos valores de tgs , sendo que nos
interessam apenas os resultados correspondentes ao menor
desses valores, j que o objetivo minimizar a durao do
ciclo de descarga. Os valores de tgs muito maiores do que o
timo podem levar a um tempo de processamento demasiadamente grande. Valores muito pequenos de tgs correspondem a situaes em que impossvel atingir o estado final
desejado. Sendo assim, uma boa estimativa inicial para o
valor de tgs pode acelerar a convergncia do procedimento.
Caso seja muito difcil obter essa boa estimativa, deve-se utilizar o procedimento descrito a seguir.
Procedimento de dificuldade crescente. Para cada fase, em
lugar de fornecer ao sistema de AR o estado final desejado
como o estado objetivo, um enfoque diferente foi adotado.
Estados finais com dificuldades crescentes para serem atingidos foram fornecidos ao sistema de AR, isto , as condies
do estado objetivo final foram progressivamente apertadas.
Aps o sistema aprender a atingir um objetivo relaxado
num intervalo de tempo satisfatrio, ele recebe como objetivo um novo estado, mais prximo do estado final realmente
desejado, e assim sucessivamente at que ele aprenda a atingir o estado desejado.
Os resultados para as fases Partida do navio, Translao em
direo moega e Chegada moega so apresentados a seguir. Foi utilizado um computador com 128 MB de RAM,
processador Pentium II duplo de 266 MHz e sistema operacional Linux Red-Hat 5.2.

Revista Controle & Automao/Vol.14 no.4/Outubro, Novembro e Dezembro 2003

373

Os parmetros dimensionais utilizados na simulao foram:


min =9m,
max = 30m, u
vT max = 3, 83m/s ,
T max =
2, 5m/s2 e v =2m/s. A distncia horizontal entre o navio e
a moega de 39,45m (Cruz et al., 1999).

5.1 Partida do Navio


Aps alguns experimentos com tgs , chegou-se ao valor de
5,8s.

O estado objetivo foi ento apertado para tgs = 5, 8s, vT =


2 , ||
2 /s,
=
min .
0, 1m/s, ||
Foram necessrios 126 episdios para atingir um estado final satisfazendo essas restries, tendo-se obtido tgs =
0, 15 , ||
0, 15 /s,
=
5, 8s, vT = 0, 035m/s, ||

min .
O tempo total de processamento foi de 56s.

O estado objetivo foi escolhido de incio como tgs =


4 , ||

5, 8s, vT 0, 95
vT max , vT 1, 05
vT max , ||

4 /s, = min .

Um procedimento heurstico foi tambm adotado aqui para


reduzir as oscilaes residuais. Quando o ngulo do pndulo
atinge o pico, comanda-se, durante um passo de simulao,
uma acelerao 25 vezes menor que a mxima admissvel.

O controlador necessitou simular 306 episdios para atingir


o estado final desejado.

Os resultados ento obtidos foram tgs = 5, 8s, vT =


0, 05 , ||
0, 05 /s,
=
min e a dis0, 024m/s, ||
tncia percorrida pelo carro foi de 7,52m.

O estado objetivo foi ento apertado para tgs = 5, 8s, vT


2 , ||
2 /s,
=
0, 95
vT max , vT 1, 05
vT max , ||
min .

O controlador necessitou de 17 episdios para atingir um


estado final satisfazendo estas restries, a saber, tgs =
0, 2 , ||
0, 2 /s,
=
min .
5, 8s, vT = vT max , ||
O tempo total de processamento foi de 234s.
Um procedimento heurstico foi introduzido para realizar
uma sintonia fina na varivel de controle, de maneira a reduzir as oscilaes residuais. Aps a ltima ao de controle
bang-bang, o procedimento localiza o primeiro pico da velocidade angular do pndulo superior a 0, 1 /s e comanda,
durante trs passos de simulao, uma acelerao 25 vezes
menor do que a acelerao mxima admissvel.
Os resultados obtidos foram ento tgs = 5, 8s, vT =
0, 03 , ||
0, 03 /s,
=
min e a
1, 005
vT max , ||
distncia percorrida pelo carro foi de 28,10m.

5.3 Translao em Direo Moega


A durao desta fase foi tomada como sendo aquela exatamente necessria para que, considerando o conjunto das trs
fases, o carro percorresse um total de 39,45m e parasse no
ponto de descarga desejado, acima da moega. Considerando
as distncias percorridas nas fases de Partida do navio e Chegada moega, resulta, portanto, que a extenso desta fase
deve ser de 3,83m. Como o percurso se realiza velocidade
mxima, a sua durao de 1,0s.

5.4 O Comportamento Resultante


O cabo, com 30m de comprimento inicial, foi recolhido
velocidade v at atingir o comprimento de 10m, conforme
ilustra a figura 4.

Este resultado foi considerado suficientemente prximo do


estado objetivo dado pelas condies de contorno descritas
na seo 2.1.

5.2 Chegada Moega


Aps alguns experimentos com valores de tgs chegou-se a
5,8s.
Forneceu-se ento ao controlador o seguinte estado objetivo:
4 , ||
4 /s,
=
min .
tgs = 5, 8s, vT = 0, 1m/s, ||
Foram necessrios nove episdios at atingir um estado final
satisfazendo o primeiro objetivo.

374

Figura 4: Comprimento do cabo em funo do tempo.


As figuras 5 a 9 mostram a evoluo temporal das variveis
do sistema para o semi-ciclo constitudo pelas trs fases des-

Revista Controle & Automao/Vol.14 no.4/Outubro, Novembro e Dezembro 2003

Figura 5: Aes de controle em funo do tempo.


.
Figura 7: Posio do carro em funo do tempo.

critas acima.
A seqncia de aes de controle em funo do tempo mostrada na figura 5. A fase Partida do navio tem uma durao
de aproximadamente 5,7s e contm dois pulsos de acelerao. De maneira similar, a fase Chegada moega dura 3,8s
e a seqncia de aes de controle composta de dois pulsos
de desacelerao. A velocidade do carro e a sua posio em
funo do tempo so apresentadas nas figuras 6 e 7, respectivamente.

Figura 8: ngulo do pndulo em funo do tempo.

Figura 6: Velocidade do carro em funo do tempo.

lao. Sendo assim, a simplicidade talvez seja a vantagem


mais significativa da abordagem baseada em AR em relao
s formas tradicionais de obteno numrica da soluo de
problemas de controle timo com restries. Para ter uma
idia das dificuldades nestes casos veja, por exemplo, a referncia (Auernig e Troger, 1987), para o problema especfico do descarregador de navios, e a referncia (Kamien eSchwartz, 1981), para problemas de controle timo de forma
geral.

As figuras 8 e 9 mostram, respectivamente, o ngulo de desvio do pndulo em relao vertical e sua velocidade angular
em funo do tempo. Nota-se, pois, que ocorrem movimentos angulares para trs e para a frente, respectivamente, durante as fases Partida do navio e Chegada moega.
Os resultados apresentados acima reproduziram aqueles obtidos por meio de uma abordagem mais tradicional, baseada na discretizao do problema, conforme consta em (Cruz
et al., 1999). Em particular, o valor numrico ali relatado de
15,23s para a durao do semi-ciclo foi reproduzido exatamente pelo procedimento aqui descrito.
Deve-se notar que a abordagem baseada em AR utiliza o modelo matemtico do problema considerado apenas para simu-

Figura 9: Velocidade angular do pndulo em funo do


tempo.

Revista Controle & Automao/Vol.14 no.4/Outubro, Novembro e Dezembro 2003

375

6 CONCLUSES

REFERNCIAS

O desempenho do esquema de AR depende fortemente da


funo de reforo adotada. Para alguns problemas de controle formulados como PDMs h uma escolha natural para
o sinal de reforo, como se pode ver em (Singh e Bertsekas, 1996). Infelizmente este no o caso do problema aqui
tratado. No h uma varivel que possa ser utilizada de imediato como um sinal de recompensa para cada transio de
estados. Para superar esta dificuldade, uma funo de reforo foi construda considerando todas as variveis de estado do sistema. importante salientar que o desempenho
acima poder ser significativamente alterado se uma funo
de recompensa diferente for adotada.

Auernig, J. e Troger, H. (1987). Time optimal control of


overhead cranes with hoisting of the load, Automatica
23(4): 437447.

Todo o conhecimento disponvel a respeito do sistema a controlar deve ser utilizado para a definio da funo recompensa. Neste trabalho admite-se que no haja conhecimento
adequado para avaliar transies de estado intermedirias.
Este fato tem um impacto negativo no tempo necessrio para
o aprendizado.
Outro fator que tem influncia no desempenho do controlador o conjunto inicial de pesos da RN. Os tempos de convergncia dependem fortemente desse conjunto, como sugerem os diferentes tempos de convergncia obtidos em correspondncia s diversas fases do movimento.
Foram definidos estados objetivo de dificuldades crescentes. Esta abordagem produziu melhores resultados do que
a forma tradicional de definir apenas o objetivo final para o
controlador. Este comportamento pode ser explicado pelo
fato de que um objetivo mais difcil de atingir acarreta punies mais severas, o que pode fazer com que os pesos da RN
oscilem ou mesmo atinjam a saturao, uma vez que no est
sendo utilizado passo decrescente de aprendizado.

Crites, R. H. e Barto, A. G. (1998). Elevator group control


using multiple reinforcement learning agents, Machine
Learning 33: 235262.
Cruz, J. J., Moraes, C. C. e Amaral, J. A. D. (1999). Modelagem do sistema de transporte carro-caamba de descarregadores de minrio em rea porturia, Relatrio
Interno, USP.
Cybenko, G. (1989). Approximation by superpositions of
a sigmoidal function, Mathematics of Control, Signals
and Systems 2: 303314.
Golafshani, A. e Aplevich, J. (1995). Computation of timeoptimal trajectories for tower cranes, Proc. IEEE CCA,
pp. 11341139.
Haykin, S. (1999). Neural Networks: a comprehensive foundation 2nd ed, Prentice-Hall.
Kaelbling, L.P., Littman, M.L. e Moore, A.W. (1996). Reinforcement Learning: A Survey, Journal Of Artificial Intelligence Research 4: 237285.
Kamien, M.I. e Schwartz, N.L. (1981). Dynamic Optimization, North-Holland.
Liang, Y. e Koh, K. (1997). Concise anti-swing approach
for fuzzy crane control, Electronics Letters 33(2): 167
168.
Sakawa, Y. e Shindo, Y. (1982). Optimal control of container
cranes, Automatica 18(3): 257266.

Como comentrio final, deve-se notar que o esquema de AR


produziu um semi-ciclo de durao 15,23s, o que coincide
com o valor obtido em (Cruz et al., 1999). Este trabalho
mostra assim que controladores baseados em AR podem ser
utilizados de maneira efetiva em problemas prticos de controle.

Singh, S. e Bertsekas, D. (1996). Reinforcement learning for


dynamic channel allocation in cellular telephone systems, Advances in Neural Information Processing Systems: Proceedings of the 1996 Conference, MIT Press,
Cambridge, MA, pp. 974980.

AGRADECIMENTOS

Sutton, R. S. e Barto, A. G. (1998). Reinforcement Learning:


an introduction, Addison Wesley, MIT Press.

L.A. Scardua agradece ao CNPq (Proc. No. 141802/97-9),


J.J. Cruz, ao CNPq (Proc. No. 304071/85-4) e Fapesp
(Proc. No. 97/04668-1) e A.H. Reali Costa, Fapesp (Proc.
No. 01/14588-2).

376

Tesauro, G. (1995). Temporal difference learning and tdgammon, Communications of the ACM 38(3): 815825.
Watkins, C. e Dayan, P. (1992). Q-learning, Machine Learning 8: 279292.

Revista Controle & Automao/Vol.14 no.4/Outubro, Novembro e Dezembro 2003

Potrebbero piacerti anche