深層強化学習における目的志向探索

甲野 佑; 久米 淳; 池田 龍司; 高橋 達二

doi:10.11517/pjsai.JSAI2023.0_2Q4OS27b02

抄録

学習における人間の柔軟性は複雑な世界を概念化し，その類推や組み合わせから得られている．一方で概念化に必要な情報収集の時点でそもそも人間は優れている．例えば，これくらいは達成すべきという見積もりを自己で行ったり他者から与えられ，それを当面の目的とすることで現状の良し悪しが判別可能になり，その半教示的な評価が学習を促進する．本研究ではそんな人間の目的志向探索が強化学習に有効であると考えた．この探索傾向を実現するのが Risk-sensitive Satisficing (RS) というメタ方策である．近年では複雑な状態系列を処理できる深層強化学習が主流となっているが RS は大きく 2 つの問題から適用できなかった．一つは決定論的選択でありサンプル効率を改善する重要度サンプリングのための確率分布の潜在的である点，もう一つは好奇心に類似する試行割合である信頼度の複雑な状態表現への近似である．本研究ではこれらを理論的選択確率の導出や，近傍近似によって解決し，深層強化学習に目的志向探索 RS アルゴリズムを適用した．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）