主催: 一般社団法人 人工知能学会
会議名: 2024年度人工知能学会全国大会(第38回)
回次: 38
開催地: アクトシティ浜松+オンライン
開催日: 2024/05/28 - 2024/05/31
強化学習により適切な制御則を獲得するには,適切な報酬関数の設計が必要である。しかし,この報酬設計は大規模な問題では複雑になり,設計負担が大きくなり,意図しない挙動を誘発する。そこで,強化学習の実世界応用において,意図しない挙動が確認されたとき,これをもとに報酬設計を改善する手法が求められる。意図しない挙動が生じた原因を特定するには,現在の報酬関数によりエージェントがどのような報酬を獲得しているかを知る必要がある。これに対するアプローチとして,エキスパートの軌跡を所与とし,エキスパートの報酬を推定する逆強化学習が挙げられる。逆強化学習を強化学習エージェントの軌跡に適用することで,現在の報酬関数によりエージェントがどのような報酬を獲得しているかを知ることができる。本研究では,逆強化学習により強化学習エージェントの報酬を推定し,推定した報酬をもとに報酬設計を改善することで,強化学習の性能を向上させる手法を提案する。