自然強化学習における動的な目的水準の調整

海老原 永輝; 高橋 達二; 甲野 佑

doi:10.11517/pjsai.JSAI2023.0_4E2GS202

抄録

複雑な手順獲得を実現する深層強化学習であるが，課題の複雑さに応じて探索空間が膨大になる問題がある. 一方人間が自然な形で未知の強化学習課題に取り組むのであればある水準達成を目的に素早く探索し，達成したら打ち切ると考えられる. 従来の研究ではこの性質から探索手法 Risk-sensitive Satisficing (RS) が提案されている. RS は最適化を目指す従来の手法と比べ効率よく試行錯誤し, 同等以上の性能を収めることを示した. RS はタスク全体の目的水準を各状態における目的水準に変換することができる大局基準変換法 Global Reference Conversion と併用することで状態遷移での学習にも拡張されている (RS+GRC) ．しかし現在の RS+GRC はタスクドメインから最適な全体目標を与える条件において好成績を示す一方，目的水準をエージェントが主体的に調整する手法について深く議論されていない. そこで本研究では強化学習において，目的達成による動的で段階的な目的修正アルゴリズムを提案し，報酬関数のスケールや明確な課題達成水準が不明なタスクへの対応を目指す．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）