人工知能学会全国大会論文集
Online ISSN : 2758-7347
第38回 (2024)
セッションID: 2B5-GS-2-04
会議情報

行動軌跡を用いた報酬関数の逐次改善による強化学習の性能向上
*蓑島 康太荒井 幸代
著者情報
会議録・要旨集 フリー

詳細
抄録

強化学習により適切な制御則を獲得するには,適切な報酬関数の設計が必要である。しかし,この報酬設計は大規模な問題では複雑になり,設計負担が大きくなり,意図しない挙動を誘発する。そこで,強化学習の実世界応用において,意図しない挙動が確認されたとき,これをもとに報酬設計を改善する手法が求められる。意図しない挙動が生じた原因を特定するには,現在の報酬関数によりエージェントがどのような報酬を獲得しているかを知る必要がある。これに対するアプローチとして,エキスパートの軌跡を所与とし,エキスパートの報酬を推定する逆強化学習が挙げられる。逆強化学習を強化学習エージェントの軌跡に適用することで,現在の報酬関数によりエージェントがどのような報酬を獲得しているかを知ることができる。本研究では,逆強化学習により強化学習エージェントの報酬を推定し,推定した報酬をもとに報酬設計を改善することで,強化学習の性能を向上させる手法を提案する。

著者関連情報
© 2024 人工知能学会
前の記事 次の記事
feedback
Top