人工知能学会全国大会論文集
Online ISSN : 2758-7347
第39回 (2025)
セッションID: 2S1-GS-2-02
会議情報

学習過程の軌跡分類による報酬の逐次改善を導入した強化学習
*蓑島 康太荒井 幸代
著者情報
会議録・要旨集 フリー

詳細
抄録

強化学習が適切な方策を獲得するためには、設計者が事前に設計した適切な報酬関数が必要である。しかし、特に複雑な問題設定においては、適切な報酬関数の設計負担が増大する。不適切な報酬関数は、エージェントが設計者の意図と異なる方策を学習する原因となり、強化学習の実世界への応用におけるボトルネックとなる。本研究では、この課題に対するアプローチとして、強化学習エージェントが学習過程で遷移した軌跡を成功と失敗にラベリングし、これらを識別する識別器を強化学習と並行して学習し、追加の報酬として利用する方法を提案する。識別器は、エージェントが環境を実行する過程で得られる状態に対し、各状態に対して成功ラベルである確率を出力する。この出力をエージェントへの追加報酬としてフィードバックすることで、報酬設計の負担を軽減しつつ、効率的な学習を実現する。

著者関連情報
© 2025 人工知能学会
前の記事 次の記事
feedback
Top