2024 年 36 巻 1 号 p. 571-581
強化学習の手法には,環境を単純で正確なダイナミクスモデル(世界モデル)として学習し,コンパクトな潜在空間で試行錯誤する手法がある.しかし,再構成誤差を用いて世界モデルを学習しているため,視覚環境が複雑になると,性能が低下する問題がある.これに対して,対照学習で世界モデルを学習させることで,視覚環境が複雑でも性能の低下を軽減した.しかし,バッチサイズを小さくすると性能が低下する課題が残されている.本研究では,非対照学習を用いて世界モデルを学習する手法を提案する.これにより,視覚環境が複雑なタスクにおいても性能が低下する課題を解決することができると考えた.また,視覚情報に関する頑健性を高めるためにタスクには関係のない背景情報による影響を抑制する損失関数を導入した.その結果,通常の背景の場合,6タスク中4タスクで,背景を複雑化した場合は,6タスク中5タスクで提案手法の方が高い性能を示した.