主催: 一般社団法人 人工知能学会
会議名: 2022年度人工知能学会全国大会(第36回)
回次: 36
開催地: 京都国際会館+オンライン
開催日: 2022/06/14 - 2022/06/17
本研究では,リアルタイム対応可能かつ複数指標を考慮した,群集の誘導戦略の最適化に向けて,多目的深層強化学習 (Multi Objective Deep Reinforcement Learning; MODRL) を改良することを目的とする.一般的にMODRL は,Outer-loop method とInner-loop method に分類される.前者は,スカラー化関数により複数の目的関数を単一の目的へと変換する.そして,スカラー化関数の重みの更新と単目的最適化を繰り返すことで,最適解集合であるパレートフロントを求める.しかし,この方法では,単目的最適化に計算コストがかかると,重みの更新回数に比例して全体の計算コストも大きくなってしまう.一方,後者のInner-loop method は,複数の方策を一度に学習するように設計された手法である.本研究では,Inner-loop method の代表的な手法であるPareto-DQN を対象に,行動選択基準の違いによるパレート解の近似について検証する.実験では,ベンチマーク問題を用いて提案手法の評価を行い,最後に群集の誘導戦略の最適化への適用について議論する.