人工知能学会全国大会論文集
Online ISSN : 2758-7347
第37回 (2023)
セッションID: 2Q4-OS-27b-02
会議情報

深層強化学習における目的志向探索
*甲野 佑久米 淳池田 龍司高橋 達二
著者情報
会議録・要旨集 フリー

詳細
抄録

学習における人間の柔軟性は複雑な世界を概念化し,その類推や組み合わせから得られている.一方で概念化に必要な情報収集の時点でそもそも人間は優れている.例えば,これくらいは達成すべきという見積もりを自己で行ったり他者から与えられ,それを当面の目的とすることで現状の良し悪しが判別可能になり,その半教示的な評価が学習を促進する.本研究ではそんな人間の目的志向探索が強化学習に有効であると考えた.この探索傾向を実現するのが Risk-sensitive Satisficing (RS) というメタ方策である.近年では複雑な状態系列を処理できる深層強化学習が主流となっているが RS は大きく 2 つの問題から適用できなかった.一つは決定論的選択でありサンプル効率を改善する重要度サンプリングのための確率分布の潜在的である点,もう一つは好奇心に類似する試行割合である信頼度の複雑な状態表現への近似である.本研究ではこれらを理論的選択確率の導出や,近傍近似によって解決し,深層強化学習に目的志向探索 RS アルゴリズムを適用した.

著者関連情報
© 2023 人工知能学会
前の記事 次の記事
feedback
Top