最適方策を学習可能なインタラクティブ模倣学習

中口 悠輝; 窪田 大

doi:10.11517/pjsai.JSAI2023.0_3D1GS202

第37回 (2023)

セッションID: 3D1-GS-2-02

DOI https://doi.org/10.11517/pjsai.JSAI2023.0_3D1GS202

会議情報

主催: 一般社団法人人工知能学会

会議名: 2023年度人工知能学会全国大会（第37回）

回次: 37

開催地: 熊本城ホール＋オンライン

開催日: 2023/06/06 - 2023/06/09

最適方策を学習可能なインタラクティブ模倣学習

*中口悠輝, 窪田大

著者情報

キーワード: 強化学習, 模倣学習, インタラクティブ模倣学習

会議録・要旨集フリー

詳細

抄録

模倣学習は強化学習の問題を何らかの教師の情報を参考に解く。典型手法の行動模倣では共変量シフトを生じて長期的な問題に適用できなかったが、インタラクティブ模倣学習は教師モデルからオンラインでフィードバックを得ることでこの課題を解決した。一方、インタラクティブ模倣学習の既存手法では、教師が生徒モデルの最適方策と異なる場合に生徒が最適方策を学習できなかった。本研究ではインタラクティブ模倣学習について整理したレビューを与えるとともに、その課題を解決する新規手法を提案する。

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）