Hypervolume最大化Q学習

柴原 琢磨; 竹下 孔喜

doi:10.11517/pjsai.JSAI2023.0_1B5GS205

抄録

本研究ではPareto解集合が非凸集合である場合でも，各Pareto解に対応する複数の方策を学習することを可能とする多目的強化学習アルゴリズムを提案する．提案アルゴリズムでは，複数の目的関数の値をhypervolumeに変換し，WatkinsのQ-learningを適用してPareto解集合が形成するハイパーボリュームを増加させる方策を獲得することができる．また，再学習することなく，ユーザが望むPareto解に至る方策を実行することができる．本研究では古典的な表形式のアルゴリズムと，Deep Q-learningを用いて表現された2つのバリエーションを紹介する．多目的強化学習の代表的なベンチマーク環境であるDeep Sea Treasureを用いた実証評価により，Pareto解集合が非凸である設定において，提案アルゴリズムが全てのPareto解を導く方策を獲得できることを示す．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）