人工知能学会全国大会論文集
Online ISSN : 2758-7347
第37回 (2023)
セッションID: 4E2-GS-2-02
会議情報

自然強化学習における動的な目的水準の調整
*海老原 永輝高橋 達二甲野 佑
著者情報
会議録・要旨集 フリー

詳細
抄録

複雑な手順獲得を実現する深層強化学習であるが,課題の複雑さに応じて探索空間が膨大になる問題がある. 一方人間が自然な形で未知の強化学習課題に取り組むのであればある水準達成を目的に素早く探索し,達成したら打ち切ると考えられる. 従来の研究ではこの性質から探索手法 Risk-sensitive Satisficing (RS) が提案されている. RS は最適化を目指す従来の手法と比べ効率よく試行錯誤し, 同等以上の性能を収めることを示した. RS はタスク全体の目的水準を各状態における目的水準に変換することができる大局基準変換法 Global Reference Conversion と併用することで状態遷移での学習にも拡張されている (RS+GRC) .しかし現在の RS+GRC はタスクドメインから最適な全体目標を与える条件において好成績を示す一方,目的水準をエージェントが主体的に調整する手法について深く議論されていない. そこで本研究では強化学習において,目的達成による動的で段階的な目的修正アルゴリズムを提案し,報酬関数のスケールや明確な課題達成水準が不明なタスクへの対応を目指す.

著者関連情報
© 2023 人工知能学会
前の記事 次の記事
feedback
Top