主催: 一般社団法人 人工知能学会
会議名: 2025年度人工知能学会全国大会(第39回)
回次: 39
開催地: 大阪国際会議場+オンライン
開催日: 2025/05/27 - 2025/05/30
強化学習が適切な方策を獲得するためには、設計者が事前に設計した適切な報酬関数が必要である。しかし、特に複雑な問題設定においては、適切な報酬関数の設計負担が増大する。不適切な報酬関数は、エージェントが設計者の意図と異なる方策を学習する原因となり、強化学習の実世界への応用におけるボトルネックとなる。本研究では、この課題に対するアプローチとして、強化学習エージェントが学習過程で遷移した軌跡を成功と失敗にラベリングし、これらを識別する識別器を強化学習と並行して学習し、追加の報酬として利用する方法を提案する。識別器は、エージェントが環境を実行する過程で得られる状態に対し、各状態に対して成功ラベルである確率を出力する。この出力をエージェントへの追加報酬としてフィードバックすることで、報酬設計の負担を軽減しつつ、効率的な学習を実現する。