人工知能学会全国大会論文集
Online ISSN : 2758-7347
第37回 (2023)
セッションID: 1B5-GS-2-05
会議情報

Hypervolume最大化Q学習
*柴原 琢磨竹下 孔喜
著者情報
会議録・要旨集 フリー

詳細
抄録

本研究ではPareto解集合が非凸集合である場合でも,各Pareto解に対応する複数の方策を学習することを可能とする多目的強化学習アルゴリズムを提案する.提案アルゴリズムでは,複数の目的関数の値をhypervolumeに変換し,WatkinsのQ-learningを適用してPareto解集合が形成するハイパーボリュームを増加させる方策を獲得することができる.また,再学習することなく,ユーザが望むPareto解に至る方策を実行することができる.本研究では古典的な表形式のアルゴリズムと,Deep Q-learningを用いて表現された2つのバリエーションを紹介する.多目的強化学習の代表的なベンチマーク環境であるDeep Sea Treasureを用いた実証評価により,Pareto解集合が非凸である設定において,提案アルゴリズムが全てのPareto解を導く方策を獲得できることを示す.

著者関連情報
© 2023 人工知能学会
前の記事 次の記事
feedback
Top