教師のオフラインデータに基づくインタラクティブ模倣学習

中口 悠輝

doi:10.11517/pjsai.JSAI2024.0_1B4GS204

抄録

模倣学習は強化学習の問題を何らかの教師の情報を参考に解く。典型手法の行動クローニングでは共変量シフトが時間と共に蓄積していくため長期的な問題に適用できなかったが、インタラクティブ模倣学習は教師モデルからオンラインでフィードバックを得ることでこの課題を解決した。さらに生徒の報酬情報も活用できるなら、教師と生徒で問題が完全に同じではないなど教師が非最適の場合であっても、強化学習よりも速く学習しつつ教師を超えることも可能である。しかし、インタラクティブ模倣学習のためにはオンラインに応答できる教師が必要で、適用できる教師は限られる。とくに、効率的な学習のためには教師の価値関数が必要であり、適用できる教師が強化学習済みモデルに限られてしまう。そこで本研究では、逆強化学習の派生手法である逆ソフトQ学習を流用して教師の軌跡から価値関数を構成することにより、価値関数を必要とするような効率的なインタラクティブ模倣学習をオフラインの軌跡データしかない教師に対しても適用できるよう拡張する手法を提案する。

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）