オフラインデータを利用したモデルベース強化学習

松嶋 達也; 古田 拓毅; 顧 世翔; 松尾 豊

doi:10.11517/pjsai.JSAI2020.0_2D5OS18b03

抄録

強化学習において，環境とオンラインに相互作用するコストの高い問題では，事前にデータセットを用意しておき方策を学習するオフライン強化学習が有望である．しかし，既存のオフライン強化学習手法は大きなデータセットに依存しているため，小さなデータセットを利用した場合，学習が不安定になるという問題を抱えている．オンラインの強化学習では，学習のサンプル効率を高める方法としてモデルベース強化学習が利用されているが，オフラインの問題設定に単純にダイナミクスモデルを組み込むだけでは性能を発揮できない．本研究では，モデルベース強化学習において，オフラインデータを利用して方策を学習する新たな手法を提案する．本提案手法は，ダイナミクスモデルのアンサンブルと，オフラインデータから推定した挙動方策とターゲット方策のダイバージェンスによる制約という2つの要素を併せ持つ．評価実験では，高次元連続制御のベンチマークを用いて，本提案手法がより小さなデータセットにおいても安定して方策を学習できることを示す．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）