人工知能学会全国大会論文集
Online ISSN : 2758-7347
第33回 (2019)
セッションID: 1Q2-J-2-04
会議情報

最大エントロピー原理に基づく逆強化ダイナミクス学習フレームワークの構築
*中口 悠輝江藤 力西岡 到
著者情報
会議録・要旨集 フリー

詳細
抄録

近年、強化学習の研究が著しく進展し、複雑な意思決定や制御の問題において幅広く高い性能を示すようになった。しかし、適切な報酬関数を指定するのが困難でしばしば意図しない振る舞いが生じてしまい、緻密な報酬関数設計が要求されるのが問題となっている。逆強化学習はエキスパートのデモンストレーションから報酬関数を構成するが、殆どの定式化ではダイナミクスへ幾らでもアクセスできることを仮定している一方で、現実にはしばしばダイナミクスへのアクセスは限られており、不確実な知識しか持ち合わせていない。そこで本研究では、ダイナミクスに対する知識の不確実さに対処するため、逆強化学習にて最も主流の最大エントロピー法をダイナミクスの推測を含む形へ拡張することで、報酬関数とダイナミクスを同時に構成するフレームワークを提案する。この定式化によって、真のダイナミクスへアクセスせずに推定中のダイナミクスを用いて報酬を推定できる。また、逆強化学習および最大エントロピー法について簡潔にレビューを行う。

著者関連情報
© 2019 一般社団法人 人工知能学会
前の記事 次の記事
feedback
Top