ccontrole Ótimo de descarregadores de navios utilizandoontrole Ótimo - navio

Upload: wairy-dias-cardoso

Post on 01-Mar-2016

22 views

Category:

Documents


0 download

DESCRIPTION

Este trabalho descreve o uso de Aprendizado por Reforçopara a obtenção de trajetórias ótimas e controle anti-balançode um descarregador de navios. O ciclo de descarga é divididoem seis etapas e, para cada uma delas, é definido umproblema de otimização. Para a solução deste são utilizadosum algoritmo TD(0) juntamente com uma rede neuraldo tipo perceptron multicamada como um aproximador dafunção valor. Os resultados obtidos são comparados com resultadosde Controle Ótimo.

TRANSCRIPT

  • CONTROLE TIMO DE DESCARREGADORES DE NAVIOS UTILIZANDOAPRENDIZADO POR REFORO

    Leonardo Azevedo [email protected]

    Jos Jaime da [email protected]

    Anna Helena Reali [email protected]

    Escola Politcnica da USP, Av. Prof. L. Gualberto, Trav. 3, No. 158, Cidade Universitria, So Paulo, SP

    ABSTRACTThis paper describes the use of Reinforcement Learning tothe computation of optimal trajectories and anti-swing con-trol of a ship unloader. The unloading cycle is divided intosix phases and an optimization problem is defined for eachof them. A TD(0) algorithm together with a multilayer per-ceptron neural network as a value function approximator isused in the optimization. The results obtained are comparedto Optimal Control results.

    KEYWORDS: Reinforcement Learning, Optimal Control,Anti-Swing Control, Ship Unloaders, Neural Networks.

    RESUMOEste trabalho descreve o uso de Aprendizado por Reforopara a obteno de trajetrias timas e controle anti-balanode um descarregador de navios. O ciclo de descarga divi-dido em seis etapas e, para cada uma delas, definido umproblema de otimizao. Para a soluo deste so utiliza-dos um algoritmo TD(0) juntamente com uma rede neuraldo tipo perceptron multicamada como um aproximador dafuno valor. Os resultados obtidos so comparados com re-sultados de Controle timo.PALAVRAS-CHAVE: Aprendizado por Reforo, Controle

    Artigo submetido em 20/12/20001a. Reviso em 5/12/2001; 2a. Reviso 8/8/2003Aceito sob recomendao dos Eds. Associados Profs. FernandoGomide e Takashi Yoneyama

    timo, Controle Anti-Balano, Descarregadores de Navios,Redes Neurais.

    1 INTRODUOUm problema importante nas operaes de descarga de na-vios a otimizao do movimento entre o navio e a moega,respeitando restries impostas pelos equipamentos e satis-fazendo condies de contorno especficas. O descarregadorde navios basicamente um sistema carro-pndulo em queo comprimento do pndulo pode ser variado, independente-mente do movimento do carro (figura 1). Uma caamba lo-calizada na extremidade do cabo usada para transportar omaterial a ser descarregado.

    O problema da otimizao do movimento da caamba podeser encarado como um problema de deciso seqencial emtempo discreto, no qual um controlador deve decidir, em cadapoca de deciso, qual a melhor ao a executar, conside-rando seu objetivo de longo prazo. A dinmica do movi-mento da caamba pode ser modelada na forma de um sis-tema de equaes diferenciais.

    H diversas solues propostas para esse problema. Em Sa-kawa e Shindo (1982), os autores consideram a minimiza-o da oscilao de containers sob determinadas condiesde contorno. Um algoritmo para calcular a lei de controletimo de tempo mnimo apresentado. Auernig e Troger(1987) abordam o problema de transferncia de uma cargaiada em tempo mnimo por meio do Princpio do Mnimo

    368 Revista Controle & Automao/Vol.14 no.4/Outubro, Novembro e Dezembro 2003

  • Figura 1: Esquema do descarregador de navios.

    de Pontryagin. A modelagem mecnica e eltrica do sistema realizada em detalhes. Tanto o movimento do carro porta-caamba, como o movimento de iamento so determinadossujeitos restrio de que a caamba deve estar em repousono incio e no final do movimento. O problema de clculodas trajetrias de tempo mnimo para guindastes tratadopor Golafshani e Aplevich (1995). Um modelo matemticodo sistema construdo, sendo obtidas as trajetrias timassujeitas a restries nos estados e no controle. Uma aborda-gem heurstica, baseada em lgica fuzzy, apresentada porLiang e Koh (1997) para reduzir as oscilaes no problemado movimento de cargas.

    H formas alternativas de tratar este problema que no setraduzem na soluo de um sistema de equaes diferenciaiscom condies no contorno. Pode-se modelar o problema deotimizao do movimento do descarregador de navios comoum Processo de Deciso de Markov (PDM). Em vista dadimenso do problema, impraticvel utilizar ProgramaoDinmica ou tcnicas de Aprendizado por Reforo (AR) queutilizam representao tabular para a funo valor. Como al-ternativa pode-se utilizar uma forma compacta de representaresta funo. um fato bastante conhecido que as Redes Neu-rais (RNs) do tipo Perceptron Multi-Camada (PMC), treina-das com o algoritmo de retro-propagao so aproximadoresuniversais de funes contnuas (Cybenko, 1989). Os PMCstm sido usados com sucesso em aplicaes de AR que en-volvem espaos de estados de dimenses elevadas, tais comoo jogo de gamo (Tesauro, 1995) e o controle de sistemas deelevadores (Crites e Barto, 1998).Neste trabalho um algoritmo de AR baseado em diferenastemporais (Sutton e Barto, 1998) com um aproximador defunes PMC utilizado para lidar com o nmero grande depossveis estados do sistema. A idia bsica em AR que

    o sistema de aprendizado esquematizado na figura 2 capazde aprender a resolver uma tarefa complexa por meio de re-petidas interaes com o ambiente. As nicas informaes

    SistemaAprendiz

    Sinal de Reforo

    Sinal de EstadoAmbiente

    Aes

    Figura 2: Esquema de um sistema de AR.

    disponveis so o estado do ambiente e um sinal escalar dereforo (recompensa), que gerado pelo ambiente em res-posta a transies de estado produzidas pelas aes executa-das pelo sistema aprendiz. O objetivo de um aprendiz ARconsiste em aprender uma poltica de escolha de aes, emcada estado, de forma a maximizar o reforo cumulativo notempo.

    O restante deste artigo est estruturado da seguinte forma:a seo 2 descreve a tarefa do descarregador de navios e omodelo usado para ela. A tarefa foi dividida em seis subta-refas, sendo fornecidos, para cada subtarefa, uma descrioe seu respectivo conjunto de condies de contorno. A seo3 apresenta a abordagem AR desenvolvida para solucionar atarefa. O ambiente experimental assim como os algoritmosdesenvolvidos so descritos na seo 4. A seo 5 apresentaos resultados obtidos pelo uso da abordagem AR aplicada otimizao do movimento do descarregador e, finalmente, naseo 6 as concluses so apresentadas.

    2 O MODELO DO DESCARREGADOR DENAVIOS

    Esta seo baseia-se integralmente no modelo proposto porAuernig e Troger (1987). O descarregador pode ser mode-lado como um sistema carro-pndulo conforme ilustra a fi-gura 3. denota a posio do carro em relao a uma origemfixada, representa o comprimento do cabo1 e , o ngulode desvio do pndulo em relao vertical.

    Em condies usuais de operao2, um ngulo suficien-temente pequeno de maneira que as equaes de movimentopodem ser linearizadas em torno de zero. Aplicando-se a for-mulao de Lagrange, obtm-se3:

    +mLmT

    ( + 2 ) = FTmT

    (1)1O comprimento do cabo definido como aquele entre o ponto de sus-

    penso e o centro de massa da caamba.2O acento circunflexo utilizado para indicar variveis em forma

    dimensional; sua ausncia indica que a varivel se encontra adimensiona-lizada com relao base definida a seguir. , medido em radianos, anica exceo.

    3Os smbolos x e x denotam derivadas com relao aos tempos dimen-sional e adimensional, respectivamente.

    Revista Controle & Automao/Vol.14 no.4/Outubro, Novembro e Dezembro 2003 369

  • Figura 3: Esquema do sistema carro-pndulo.

    + 2 + g = (2)para o caso em que a poltica de iamento da caamba fi-xada a priori, isto , a funo (t) dada. Nestas equaes,mL a massa da caamba, mT a massa total do carro e FT a fora de trao do carro.

    H duas formas de controle do carro: na primeira, a fora detrao a varivel de controle; na segunda, considera-se quea posio do carro controlada e a acelerao uT deste avarivel de controle. Este ltimo caso o considerado nestetrabalho e, conforme Auernig e Troger (1987), fazendo-semL/mT = 0 na equao 1, obtm-se:

    = uT , (3)que, em conjunto com a equao 2, constitui o modelo dosistema na forma dimensional.

    Definindo-se o seguinte conjunto de variveis adimensionais:uT = uT /uTmax t = t

    g/min

    = (g)/(uTmaxmin) = (g/uTmax)/

    = /min vT = (vT

    g/min)/uTmax,

    em que uTmax a acelerao mxima do carro, min ovalor mnimo do comprimento do cabo ao longo de todo ociclo, vT a velocidade do carro, isto , vT = e g aacelerao da gravidade, obtm-se as equaes do sistemana forma adimensional:

    = uT (4) + 2 + = uT . (5)

    O ciclo de descarga foi dividido em seis fases, a saber, Par-tida do navio, Translao em direo moega, Chegada moega, Partida da moega, Translao em direo ao navio eChegada ao navio. As trs primeiras fases so descritas emdetalhes a seguir e constituem a primeira metade do ciclo. Astrs restantes, por serem similares, so descritas apenas bre-vemente. Para cada fase foi adotada uma origem para a me-dida da posio e uma para a varivel tempo. Convenciona-seque > 0 coresponde ao movimento do carro no sentido donavio para a moega.

    2.1 Partida do Navio

    Esta fase definida da seguinte forma. Inicialmente, tanto ocarro como a caamba so supostos em repouso num dadoponto acima do navio; o comprimento do cabo tem seu va-lor mximo (max). O iamento do cabo e o movimento docarro iniciam-se simultaneamente no instante que se conven-ciona como sendo t = 0. O iamento da caamba realizadoa velocidade constante v at que um dado valor min docomprimento do cabo seja alcanado. Sendo assim, a dura-o desta fase dada por:

    tpn =max min

    v(6)

    e a funo (t) resulta expressa por

    (t) = max vt (0 t tpn), (7)que deve ser usada na equao 5. Desta forma, a dinmica dosistema dada por um conjunto de duas equaes diferenci-ais lineares de 2a. ordem, sendo a segunda delas (5), varianteno tempo.

    O objetivo desta fase maximizar a distncia percorrida pelocarro durante o iamento da caamba. Admite-se que o in-tervalo de tempo tpn seja suficiente para o carro atingir suavelocidade mxima vTmax.

    No instante em que o iamento termina, deseja-se que a ca-amba esteja em repouso com relao ao carro e na posiovertical. Alm disso, a velocidade do carro deve ter atingidoseu valor mximo vTmax.

    A descrio acima conduz ao seguinte conjunto de condi-es de contorno (0) = 0, (0) = 0, (0) = 0, (0) =0, (tpn) = vTmax, (tpn) = 0, (tpn) = 0.

    Note que a condio (0) = 0 estabelece o ponto de partidado carro acima do navio como a origem para a medida de po-sies. Alm disso, por simplicidade, as seguintes restriesso impostas:

    1. a acelerao do carro uT pode tomar apenas os valores0 ou 1;

    2. a velocidade do carro vT no pode ser superior a vTmax.

    Note que a restrio 1 impede o carro de se movimentar paraa frente e para trs. Ela reduz tambm o nmero de aes decontrole possveis em cada poca de deciso. A restrio 2representa um limite natural para o movimento do carro.

    2.2 Translao em Direo MoegaDurante esta fase o carro se move com velocidade mximavTmax em direo moega e o comprimento do cabo man-

    370 Revista Controle & Automao/Vol.14 no.4/Outubro, Novembro e Dezembro 2003

  • tido constante e igual a min. Uma vez que o movimento docarro retilneo e uniforme, a caamba permanece no mesmoestado em que se encontrava ao final da etapa Partida do na-vio, a saber, em repouso com relao ao carro e na posiovertical.

    A durao desta fase depende dos resultados da prxima fase,uma vez que esta determina a distncia necessria para ocarro desacelerar e parar sobre a moega.

    2.3 Chegada MoegaNesta fase, supe-se o carro se movendo inicialmente em di-reo moega com velocidade vTmax e a caamba admi-tida em repouso com relao ao carro e na posio vertical. Oobjetivo minimizar a distncia de frenagem necessria paraparar o carro de maneira que, no final desta fase, a caambaesteja novamente em repouso na vertical. O comprimento docabo mantido constante e igual a min.

    A durao desta fase no conhecida a priori e deve serobtida pelo controlador. Denotando-a por tcm e adotandoa origem de tempo t = 0 como o instante em que afase se inicia, tem-se o seguinte conjunto de condies decontorno:(0) = 0, (0) = vTmax, (0) = 0, (0) =0, (tcm) = 0, (tcm) = 0, (tcm) = 0.

    Note-se que a condio (0) = 0 fixa o ponto inicial da fre-nagem como a origem para a posio do carro. Em outraspalavras, a distncia de frenagem (tcm) define o ponto emque o carro deve estar no incio desta fase de modo que, nofinal da fase, a caamba esteja exatamente na posio de des-carga desejada acima da moega.Alm disso, por simplicidade, supe-se que as seguintes res-tries devam ser satisfeitas:

    1. a acelerao do carro uT pode tomar apenas os valores0 ou -1;

    2. a velocidade do carro vT no pode ser inferior a 0.

    Uma vez que constante durante esta fase, tem-se = 0na equao 5.

    2.4 Demais Fases

    As fases restantes do ciclo de descarga so bastante similaress descritas acima.

    A etapa Partida da moega anloga Chegada moega. Oobjetivo acelerar o carro de volta em direo ao navio desdeo repouso at sua velocidade mxima. Considera-se a ca-amba inicialmente em repouso na posio vertical e deseja-se que ela resulte nessa mesma condio em relao ao carro

    no instante final da etapa. O cabo mantido com compri-mento constante e igual a min. A soluo que se obtmnesse caso, obviamente, a mesma da fase Chegada Mo-ega, exceto pela troca dos papis entre os instantes inicial efinal, assim como das condies de contorno.

    A etapa Translao em direo ao navio idntica faseTranslao em direo moega, pois o movimento do carro retilneo e uniforme.

    Por fim, no que se refere troca de papis entre instantes econdies iniciais e finais, a Chegada ao navio e a Partidado navio guardam entre si a mesma semelhana que existeentre as duas primeiras etapas mencionadas no incio destaseo. Contudo, como os movimentos verticais da caambatm sentidos opostos nas duas etapas, as solues so distin-tas, pois dependem de (que negativa para a Partida donavio e positiva para a Chegada ao navio).

    3 O APRENDIZADO POR REFORODe acordo com (Crites e Barto, 1998), da perspectiva da teo-ria de controle, as tcnicas de AR so formas de obter solu-es para problemas de controle timo estocstico em que oagente que toma as decises um controlador e o ambiente o sistema a controlar. Dentro deste esquema, o objetivo maximizar um dado ndice de desempenho. O problemade deciso seqencial a resolver modelado como sendo umPDM em que o objetivo do agente aprendiz maximizar oreforo recebido durante sua vida.

    Formalmente, um PDM definido como sendo (S, A, R, T )(Kaelbling et al., 1996), onde: S o conjunto de estados; A o conjunto de aes; R uma funo de reforo escalar, R : S A ; T uma funo de transio de estado, T : SA (S),onde um membro de (S) uma distribuio de probabili-dade sobre S. T (s, a, s) representa a probabilidade de al-canar o estado s a partir de s, executando a ao a.

    A tarefa de um agente AR consiste em aprender, por tentativae erro, a poltica : S A que mapeia o estado corrente sna ao a A desejada a ser executada em s S.O aspecto mais importante no contexto de PDMs a Pro-priedade de Markov. Diz-se que um problema de decisoseqencial tem a Propriedade de Markov se a deciso no in-cio do passo t pode ser tomada como uma funo apenas doestado no mesmo instante st. Em outras palavras, a Pro-priedade de Markov estabelece que a funo de transio deestados e a funo de reforo so independentes de qualquer

    Revista Controle & Automao/Vol.14 no.4/Outubro, Novembro e Dezembro 2003 371

  • estado prvio do ambiente ou das aes prvias executadaspelo agente aprendiz.

    O problema de controle das oscilaes do pndulo apresentaa Propriedade de Markov uma vez que, dado o estado com-posto por , , , , , no necessrio considerar a histriapassada do sistema para tomar uma deciso num dado ins-tante.

    4 SOLUO DO PROBLEMAEsta seo descreve os passos envolvidos na soluo do pro-blema utilizando AR. Deve-se notar que a soluo da Partidada moega simtrica no tempo com relao da Chegada moega. Por outro lado, a soluo da Chegada ao navioguarda certa similaridade com a da Partida do navio. Emvista disso, apenas as solues correspondentes s fases Par-tida do navio, Translao rumo moega e Chegada moegaso apresentadas.

    4.1 ImplementaoPara tratar o problema de controle apresentado como umPDM, o sistema de AR ilustrado na figura 2 deve ser im-plementado como um sistema a tempo discreto. O sistema ento simulado com uma ao de controle escolhida em cadapasso de discretizao. O aprendizado realizado indepen-dentemente para cada fase do movimento, ou seja, cada fase simulada at que um resultado satisfatrio seja obtido.O bloco Ambiente da figura 2 implementado por um si-mulador que descreve as respostas dinmicas do sistema aaes de controle e o bloco Sistema Aprendiz implemen-tado na forma de um algoritmo de aprendizado TD(0) (Suttone Barto, 1998). No que se segue, os componentes do sistemade AR so descritos em detalhes.

    4.1.1 O Simulador

    No incio de cada episdio de simulao, iniciam-se as vari-veis de estado do sistema com o valor inicial correspondentequela fase. Em seguida, o simulador executa o seguinte ci-clo:

    1. L a ao a executar. Esta ao deve ter sido selecionadapelo Sistema Aprendiz.

    2. Avana uma unidade de tempo de simulao integrandoas equaes diferenciais que descrevem o sistema.

    3. Armazena o estado do sistema para o prximo passo dediscretizao.

    4. Calcula o reforo imediato que se segue transio deestados.

    Clculo do Reforo Associado Transio de Estados. Paraalguns problemas formulados como PDMs, h uma escolhanatural para o sinal de reforo (Singh e Bertsekas, 1996). In-felizmente, neste caso, no existem quantidades associadas tarefa que possam ser diretamente usadas como reforo. Asoluo adotada envolveu a definio de um tempo limite tgspara finalizar um episdio de simulao. Quando o tempode simulao atinge este limite pr-estabelecido, o estado dodescarregador comparado ao estado final desejado da sub-tarefa correspondente. O reforo ento determinado atravsda diferena entre o estado corrente e o estado final conside-rado, indicando ocorrncia de erros. O procedimento dedi-cado ao clculo deste reforo pode ser descrito como:

    1. Se o limite de tempo tgs foi atingido:

    (a) Se o sistema no est no estado final, ento ocor-reu uma violao de restrio: retorne como re-foro o negativo do valor absoluto da diferena es-calar entre os valores atual e desejado da primeiravarivel de estado que no satisfaz a condio de-sejada para o estado final.

    (b) Se o estado final desejado foi atingido: termine asimulao.

    2. Retorne 0 (zero) como reforo.

    Observe que este procedimento avalia somente as situaesextremas, aplicando uma punio caso o sistema no te-nha chegado ao estado final dentro do limite de tempo pr-estabelecido ou terminando a simulao caso o objetivo te-nha sido alcanado. Para todas as outras transies interme-dirias, zero retornado como reforo, significando que osimulador no sabe como avaliar tais transies. Esta faltade conhecimento causa um impacto negativo no tempo deaprendizado, uma vez que o algoritmo TD(0) no pode ad-quirir conhecimento a partir de tais transies.

    Quando ocorre uma violao de restrio, o simulador iniciauma nova simulao desde seu incio, considerando comocondies iniciais do procedimento de integrao aquelascorrespondentes fase que est sendo otimizada.

    Otimizao do tempo. O procedimento de atribuio de re-foro verifica se o sistema atingiu o estado final desejadoapenas aps o decurso de um intervalo tempo tgs dado pelousurio. O processo de otimizao do tempo para cada fase executado expondo o controlador a uma seqncia de temposde simulao decrescentes, conforme descrito a seguir:

    1. Leia o valor inicial de tgs.

    2. Atribua ao estado inicial o valor correspondente faseatual.

    372 Revista Controle & Automao/Vol.14 no.4/Outubro, Novembro e Dezembro 2003

  • 3. Inicie o controlador sem qualquer conhecimento prvio.

    4. Inicie o contador de tempo.

    5. Enquanto o contador de tempo for inferior a 20 minutos(valor emprico):

    (a) Avana um passo na simulao.(b) Se o estado do sistema for igual ao estado dese-

    jado:i. Mantenha a soluo obtida como candidata

    soluo final.ii. Reduza tgs.

    iii. Calcule o reforo baseado na diferena entreo estado atual e o final desejado.

    iv. Atualize o conhecimento do controlador.

    6. Retorne a soluo candidata como soluo final.

    4.1.2 O Sistema Aprendiz

    No incio de cada passo de simulao, o algoritmo TD(0) es-colhe a ao que ele avalia como sendo aquela capaz de gerara maior recompensa a longo prazo. Para cada par estado-aopossvel, esta estimativa traduzida por um nmero real cha-mado valor Q (Watkins e Dayan, 1992). O valor Q de umpar estado-ao atualizado aps cada transio de estados.Em essncia, tudo que for aprendido estar codificado nosvalores de Q. O modelo de horizonte infinito descontado foiusado para o valor cumulativo esperado adquirido por seguiruma poltica arbitrria a partir do estado inicial si.

    O estado do simulador composto por , , , , . Estasso todas variveis contnuas, o que leva a um nmero infi-nito de estados possveis. Entretanto, para fins de simulao,o nmero de estados possveis finito. Este fato pode serobservado facilmente considerando que:

    1. Para cada fase do movimento os episdios de simulaosempre tm uma durao mxima de tempo e iniciamcom as mesmas condies iniciais.

    2. O nmero de aes de controle possveis em cada pocade deciso limitado (finito).

    3. Ao tomar a ao at quando no estado st, o sistema conduzido ao estado st+1 com probabilidade 1, ondest+1 determinado pela dinmica do sistema.

    Note, entretanto, que esse nmero cresce drasticamente como tempo de simulao. Utilizando um passo de 0,05s e consi-derando simulaes de 6s, h 120 pocas de deciso. Comoo nmero de aes de controle possveis em cada poca dedeciso 2, ento h 2120 seqncias de controle possveis.

    O nmero de estados possveis torna impraticvel o uso deuma representao tabular para armazenar os valores Q. Asoluo adotada utiliza uma RN para representar de formacompacta esses valores. A RN escolhida um PMC com 7ns na camada de entrada (5 ns para as variveis de estadoe 2 ns para as duas possveis aes de controle), 20 nssigmoidais na nica camada escondida e um n na camadade sada, o qual soma as sadas de todos os ns escondidos.

    A RN treinada com o algoritmo de retro-propagao(Haykin, 1999). O conjunto de pesos iniciais escolhidoaleatoriamente no intervalo [-1,1]. A mesma semente uti-lizada, o que leva mesma distribuio inicial de pesos paratodas as fases do movimento.

    Com o propsito de aumentar a velocidade de aprendizado,cada fase do movimento controlada por uma RN, o que sig-nifica que um conjunto diferente de pesos aprendido paracada fase da tarefa do descarregador de navios.

    5 RESULTADOSEsta seo mostra os resultados obtidos da otimizao domovimento do descarregador de navios. As simulaes fo-ram realizadas para diversos valores de tgs, sendo que nosinteressam apenas os resultados correspondentes ao menordesses valores, j que o objetivo minimizar a durao dociclo de descarga. Os valores de tgs muito maiores do que otimo podem levar a um tempo de processamento demasia-damente grande. Valores muito pequenos de tgs correspon-dem a situaes em que impossvel atingir o estado finaldesejado. Sendo assim, uma boa estimativa inicial para ovalor de tgs pode acelerar a convergncia do procedimento.Caso seja muito difcil obter essa boa estimativa, deve-se uti-lizar o procedimento descrito a seguir.

    Procedimento de dificuldade crescente. Para cada fase, emlugar de fornecer ao sistema de AR o estado final desejadocomo o estado objetivo, um enfoque diferente foi adotado.Estados finais com dificuldades crescentes para serem atingi-dos foram fornecidos ao sistema de AR, isto , as condiesdo estado objetivo final foram progressivamente apertadas.Aps o sistema aprender a atingir um objetivo relaxadonum intervalo de tempo satisfatrio, ele recebe como obje-tivo um novo estado, mais prximo do estado final realmentedesejado, e assim sucessivamente at que ele aprenda a atin-gir o estado desejado.Os resultados para as fases Partida do navio, Translao emdireo moega e Chegada moega so apresentados a se-guir. Foi utilizado um computador com 128 MB de RAM,processador Pentium II duplo de 266 MHz e sistema opera-cional Linux Red-Hat 5.2.

    Revista Controle & Automao/Vol.14 no.4/Outubro, Novembro e Dezembro 2003 373

  • Os parmetros dimensionais utilizados na simulao foram:vTmax = 3, 83m/s ,min =9m, max = 30m, uTmax =2, 5m/s2 e v =2m/s. A distncia horizontal entre o navio ea moega de 39,45m (Cruz et al., 1999).

    5.1 Partida do Navio

    Aps alguns experimentos com tgs, chegou-se ao valor de5,8s.

    O estado objetivo foi escolhido de incio como tgs =5, 8s, vT 0, 95vTmax, vT 1, 05vTmax, || 4, || 4/s, = min.

    O controlador necessitou simular 306 episdios para atingiro estado final desejado.O estado objetivo foi ento apertado para tgs = 5, 8s, vT 0, 95vTmax, vT 1, 05vTmax, || 2, || 2/s, =min.

    O controlador necessitou de 17 episdios para atingir umestado final satisfazendo estas restries, a saber, tgs =5, 8s, vT = vTmax, || 0, 2, || 0, 2/s, = min.O tempo total de processamento foi de 234s.

    Um procedimento heurstico foi introduzido para realizaruma sintonia fina na varivel de controle, de maneira a re-duzir as oscilaes residuais. Aps a ltima ao de controlebang-bang, o procedimento localiza o primeiro pico da ve-locidade angular do pndulo superior a 0, 1/s e comanda,durante trs passos de simulao, uma acelerao 25 vezesmenor do que a acelerao mxima admissvel.

    Os resultados obtidos foram ento tgs = 5, 8s, vT =1, 005vTmax, || 0, 03, || 0, 03/s, = min e adistncia percorrida pelo carro foi de 28,10m.

    Este resultado foi considerado suficientemente prximo doestado objetivo dado pelas condies de contorno descritasna seo 2.1.

    5.2 Chegada MoegaAps alguns experimentos com valores de tgs chegou-se a5,8s.

    Forneceu-se ento ao controlador o seguinte estado objetivo:tgs = 5, 8s, vT = 0, 1m/s, || 4, || 4/s, = min.Foram necessrios nove episdios at atingir um estado finalsatisfazendo o primeiro objetivo.

    O estado objetivo foi ento apertado para tgs = 5, 8s, vT =0, 1m/s, || 2, || 2/s, = min.Foram necessrios 126 episdios para atingir um estado fi-nal satisfazendo essas restries, tendo-se obtido tgs =5, 8s, vT = 0, 035m/s, || 0, 15, || 0, 15/s, =min.

    O tempo total de processamento foi de 56s.

    Um procedimento heurstico foi tambm adotado aqui parareduzir as oscilaes residuais. Quando o ngulo do pnduloatinge o pico, comanda-se, durante um passo de simulao,uma acelerao 25 vezes menor que a mxima admissvel.

    Os resultados ento obtidos foram tgs = 5, 8s, vT =0, 024m/s, || 0, 05, || 0, 05/s, = min e a dis-tncia percorrida pelo carro foi de 7,52m.

    5.3 Translao em Direo MoegaA durao desta fase foi tomada como sendo aquela exata-mente necessria para que, considerando o conjunto das trsfases, o carro percorresse um total de 39,45m e parasse noponto de descarga desejado, acima da moega. Considerandoas distncias percorridas nas fases de Partida do navio e Che-gada moega, resulta, portanto, que a extenso desta fasedeve ser de 3,83m. Como o percurso se realiza velocidademxima, a sua durao de 1,0s.

    5.4 O Comportamento ResultanteO cabo, com 30m de comprimento inicial, foi recolhido velocidade v at atingir o comprimento de 10m, conformeilustra a figura 4.

    Figura 4: Comprimento do cabo em funo do tempo.

    As figuras 5 a 9 mostram a evoluo temporal das variveisdo sistema para o semi-ciclo constitudo pelas trs fases des-

    374 Revista Controle & Automao/Vol.14 no.4/Outubro, Novembro e Dezembro 2003

  • Figura 5: Aes de controle em funo do tempo..

    critas acima.

    A seqncia de aes de controle em funo do tempo mos-trada na figura 5. A fase Partida do navio tem uma duraode aproximadamente 5,7s e contm dois pulsos de acelera-o. De maneira similar, a fase Chegada moega dura 3,8se a seqncia de aes de controle composta de dois pulsosde desacelerao. A velocidade do carro e a sua posio emfuno do tempo so apresentadas nas figuras 6 e 7, respecti-vamente.

    Figura 6: Velocidade do carro em funo do tempo.

    As figuras 8 e 9 mostram, respectivamente, o ngulo de des-vio do pndulo em relao vertical e sua velocidade angularem funo do tempo. Nota-se, pois, que ocorrem movimen-tos angulares para trs e para a frente, respectivamente, du-rante as fases Partida do navio e Chegada moega.

    Os resultados apresentados acima reproduziram aqueles ob-tidos por meio de uma abordagem mais tradicional, base-ada na discretizao do problema, conforme consta em (Cruzet al., 1999). Em particular, o valor numrico ali relatado de15,23s para a durao do semi-ciclo foi reproduzido exata-mente pelo procedimento aqui descrito.

    Deve-se notar que a abordagem baseada em AR utiliza o mo-delo matemtico do problema considerado apenas para simu-

    Figura 7: Posio do carro em funo do tempo.

    Figura 8: ngulo do pndulo em funo do tempo.

    lao. Sendo assim, a simplicidade talvez seja a vantagemmais significativa da abordagem baseada em AR em relaos formas tradicionais de obteno numrica da soluo deproblemas de controle timo com restries. Para ter umaidia das dificuldades nestes casos veja, por exemplo, a re-ferncia (Auernig e Troger, 1987), para o problema espec-fico do descarregador de navios, e a referncia (Kamien eS-chwartz, 1981), para problemas de controle timo de formageral.

    Figura 9: Velocidade angular do pndulo em funo dotempo.

    Revista Controle & Automao/Vol.14 no.4/Outubro, Novembro e Dezembro 2003 375

  • 6 CONCLUSESO desempenho do esquema de AR depende fortemente dafuno de reforo adotada. Para alguns problemas de con-trole formulados como PDMs h uma escolha natural parao sinal de reforo, como se pode ver em (Singh e Bertse-kas, 1996). Infelizmente este no o caso do problema aquitratado. No h uma varivel que possa ser utilizada de ime-diato como um sinal de recompensa para cada transio deestados. Para superar esta dificuldade, uma funo de re-foro foi construda considerando todas as variveis de es-tado do sistema. importante salientar que o desempenhoacima poder ser significativamente alterado se uma funode recompensa diferente for adotada.

    Todo o conhecimento disponvel a respeito do sistema a con-trolar deve ser utilizado para a definio da funo recom-pensa. Neste trabalho admite-se que no haja conhecimentoadequado para avaliar transies de estado intermedirias.Este fato tem um impacto negativo no tempo necessrio parao aprendizado.

    Outro fator que tem influncia no desempenho do controla-dor o conjunto inicial de pesos da RN. Os tempos de con-vergncia dependem fortemente desse conjunto, como suge-rem os diferentes tempos de convergncia obtidos em corres-pondncia s diversas fases do movimento.

    Foram definidos estados objetivo de dificuldades crescen-tes. Esta abordagem produziu melhores resultados do quea forma tradicional de definir apenas o objetivo final para ocontrolador. Este comportamento pode ser explicado pelofato de que um objetivo mais difcil de atingir acarreta puni-es mais severas, o que pode fazer com que os pesos da RNoscilem ou mesmo atinjam a saturao, uma vez que no estsendo utilizado passo decrescente de aprendizado.

    Como comentrio final, deve-se notar que o esquema de ARproduziu um semi-ciclo de durao 15,23s, o que coincidecom o valor obtido em (Cruz et al., 1999). Este trabalhomostra assim que controladores baseados em AR podem serutilizados de maneira efetiva em problemas prticos de con-trole.

    AGRADECIMENTOSL.A. Scardua agradece ao CNPq (Proc. No. 141802/97-9),J.J. Cruz, ao CNPq (Proc. No. 304071/85-4) e Fapesp(Proc. No. 97/04668-1) e A.H. Reali Costa, Fapesp (Proc.No. 01/14588-2).

    REFERNCIASAuernig, J. e Troger, H. (1987). Time optimal control of

    overhead cranes with hoisting of the load, Automatica23(4): 437447.

    Crites, R. H. e Barto, A. G. (1998). Elevator group controlusing multiple reinforcement learning agents, MachineLearning 33: 235262.

    Cruz, J. J., Moraes, C. C. e Amaral, J. A. D. (1999). Mode-lagem do sistema de transporte carro-caamba de des-carregadores de minrio em rea porturia, RelatrioInterno, USP.

    Cybenko, G. (1989). Approximation by superpositions ofa sigmoidal function, Mathematics of Control, Signalsand Systems 2: 303314.

    Golafshani, A. e Aplevich, J. (1995). Computation of time-optimal trajectories for tower cranes, Proc. IEEE CCA,pp. 11341139.

    Haykin, S. (1999). Neural Networks: a comprehensive foun-dation 2nd ed, Prentice-Hall.

    Kaelbling, L.P., Littman, M.L. e Moore, A.W. (1996). Rein-forcement Learning: A Survey, Journal Of Artificial In-telligence Research 4: 237285.

    Kamien, M.I. e Schwartz, N.L. (1981). Dynamic Optimiza-tion, North-Holland.

    Liang, Y. e Koh, K. (1997). Concise anti-swing approachfor fuzzy crane control, Electronics Letters 33(2): 167168.

    Sakawa, Y. e Shindo, Y. (1982). Optimal control of containercranes, Automatica 18(3): 257266.

    Singh, S. e Bertsekas, D. (1996). Reinforcement learning fordynamic channel allocation in cellular telephone sys-tems, Advances in Neural Information Processing Sys-tems: Proceedings of the 1996 Conference, MIT Press,Cambridge, MA, pp. 974980.

    Sutton, R. S. e Barto, A. G. (1998). Reinforcement Learning:an introduction, Addison Wesley, MIT Press.

    Tesauro, G. (1995). Temporal difference learning and td-gammon, Communications of the ACM 38(3): 815825.

    Watkins, C. e Dayan, P. (1992). Q-learning, Machine Lear-ning 8: 279292.

    376 Revista Controle & Automao/Vol.14 no.4/Outubro, Novembro e Dezembro 2003