群集誘導戦略最適化に向けた多目的深層強化学習に関する研究

西田 遼; 谷垣 勇輝; 大西 正輝; 橋本 浩一

doi:10.11517/pjsai.JSAI2022.0_3G4OS15b01

抄録

本研究では，リアルタイム対応可能かつ複数指標を考慮した，群集の誘導戦略の最適化に向けて，多目的深層強化学習 (Multi Objective Deep Reinforcement Learning; MODRL) を改良することを目的とする．一般的にMODRL は，Outer-loop method とInner-loop method に分類される．前者は，スカラー化関数により複数の目的関数を単一の目的へと変換する．そして，スカラー化関数の重みの更新と単目的最適化を繰り返すことで，最適解集合であるパレートフロントを求める．しかし，この方法では，単目的最適化に計算コストがかかると，重みの更新回数に比例して全体の計算コストも大きくなってしまう．一方，後者のInner-loop method は，複数の方策を一度に学習するように設計された手法である．本研究では，Inner-loop method の代表的な手法であるPareto-DQN を対象に，行動選択基準の違いによるパレート解の近似について検証する．実験では，ベンチマーク問題を用いて提案手法の評価を行い，最後に群集の誘導戦略の最適化への適用について議論する．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）