粒子群による学習状態行動空間分割

野津 亮; 本多 克宏; 市橋 秀友; 別府 剛至

doi:10.14864/fss.27.0.15.0

抄録

本論文では，PSOを参考に強化学習の試行錯誤過程で，エージェントの状態や行動空間を周期的に変化させ，粒子群に学習に適した空間分割を獲得させる事を目的としている．これにより，大量のデータを用いる事なく低メモリでの学習が可能となる．基本となるActor-Critic はその政策の性質から，状態行動空間中では行動次元の方向にしか更新されない．そこで，状態次元方向にも更新されるように政策を変更した拡張版Actor-Criticなるものが存在する．しかし，そのアルゴリズムは学習に時間を要するため，次元が増える程に，より多大な影響を及ぼしてしまう場合がある．そこで，状態をあらかじめある程度分割し，それぞれの範囲を各粒子に対応させることによって学習速度を速めるアルゴリズムを提案する．そしてそれについて簡単なシミュレーション実験を行い，性能を確認した．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）