主催: 一般社団法人 人工知能学会
会議名: 2024年度人工知能学会全国大会(第38回)
回次: 38
開催地: アクトシティ浜松+オンライン
開催日: 2024/05/28 - 2024/05/31
模倣学習は強化学習の問題を何らかの教師の情報を参考に解く。典型手法の行動クローニングでは共変量シフトが時間と共に蓄積していくため長期的な問題に適用できなかったが、インタラクティブ模倣学習は教師モデルからオンラインでフィードバックを得ることでこの課題を解決した。さらに生徒の報酬情報も活用できるなら、教師と生徒で問題が完全に同じではないなど教師が非最適の場合であっても、強化学習よりも速く学習しつつ教師を超えることも可能である。しかし、インタラクティブ模倣学習のためにはオンラインに応答できる教師が必要で、適用できる教師は限られる。とくに、効率的な学習のためには教師の価値関数が必要であり、適用できる教師が強化学習済みモデルに限られてしまう。そこで本研究では、逆強化学習の派生手法である逆ソフトQ学習を流用して教師の軌跡から価値関数を構成することにより、価値関数を必要とするような効率的なインタラクティブ模倣学習をオフラインの軌跡データしかない教師に対しても適用できるよう拡張する手法を提案する。