人工知能学会全国大会論文集
Online ISSN : 2758-7347
第38回 (2024)
セッションID: 1B4-GS-2-04
会議情報

教師のオフラインデータに基づくインタラクティブ模倣学習
*中口 悠輝
著者情報
会議録・要旨集 フリー

詳細
抄録

模倣学習は強化学習の問題を何らかの教師の情報を参考に解く。典型手法の行動クローニングでは共変量シフトが時間と共に蓄積していくため長期的な問題に適用できなかったが、インタラクティブ模倣学習は教師モデルからオンラインでフィードバックを得ることでこの課題を解決した。さらに生徒の報酬情報も活用できるなら、教師と生徒で問題が完全に同じではないなど教師が非最適の場合であっても、強化学習よりも速く学習しつつ教師を超えることも可能である。しかし、インタラクティブ模倣学習のためにはオンラインに応答できる教師が必要で、適用できる教師は限られる。とくに、効率的な学習のためには教師の価値関数が必要であり、適用できる教師が強化学習済みモデルに限られてしまう。そこで本研究では、逆強化学習の派生手法である逆ソフトQ学習を流用して教師の軌跡から価値関数を構成することにより、価値関数を必要とするような効率的なインタラクティブ模倣学習をオフラインの軌跡データしかない教師に対しても適用できるよう拡張する手法を提案する。

著者関連情報
© 2024 人工知能学会
前の記事 次の記事
feedback
Top