DreamingV2: 再構成不要な離散状態世界モデル学習と強化学習

岡田 雅司; 谷口 忠大

doi:10.11517/pjsai.JSAI2022.0_2M1OS19a01

抄録

本稿では、世界モデルに基づく強化学習であるDreamerV2とDreamingを拡張したDreamingV2を提案する。DreamerV2は潜在状態をカテゴリ変数で表現する離散世界モデルを用いた強化学習手法である。またDreamingは、対照学習により、一般的な世界モデル学習におけるオートエンコーディング（再構成）の過程を用いない強化学習手法である。提案するDreamingV2は、DreamingV2の離散状態表現とDreamingの再構成不要な世界モデル学習の両者を採用した手法である。5つのロボットアームのタスクのシミュレーション実験において、DreamingV2はDreamerV2および最新の世界モデルを上回る性能を達成した。DreamingV2は実世界の不連続的なダイナミクスを離散表現で適切に表現でき、また実世界の複雑な画像観測の再構成を不要とすることから、DreamingV2はロボット強化学習の有効な手段であると考えられる。

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）