抄録
本論文では,PSOを参考に強化学習の試行錯誤過程で,エージェントの状態や行動空間を周期的に変化させ,粒子群に学習に適した空間分割を獲得させる事を目的としている.これにより,大量のデータを用いる事なく低メモリでの学習が可能となる.基本となるActor-Critic はその政策の性質から,状態行動空間中では行動次元の方向にしか更新されない.そこで,状態次元方向にも更新されるように政策を変更した拡張版Actor-Criticなるものが存在する.しかし,そのアルゴリズムは学習に時間を要するため,次元が増える程に,より多大な影響を及ぼしてしまう場合がある.そこで,状態をあらかじめある程度分割し,それぞれの範囲を各粒子に対応させることによって学習速度を速めるアルゴリズムを提案する.そしてそれについて簡単なシミュレーション実験を行い,性能を確認した.