人工知能学会全国大会論文集
Online ISSN : 2758-7347
第34回 (2020)
セッションID: 2D5-OS-18b-03
会議情報

オフラインデータを利用したモデルベース強化学習
*松嶋 達也古田 拓毅顧 世翔松尾 豊
著者情報
会議録・要旨集 フリー

詳細
抄録

強化学習において,環境とオンラインに相互作用するコストの高い問題では,事前にデータセットを用意しておき方策を学習するオフライン強化学習が有望である.しかし,既存のオフライン強化学習手法は大きなデータセットに依存しているため,小さなデータセットを利用した場合,学習が不安定になるという問題を抱えている.オンラインの強化学習では,学習のサンプル効率を高める方法としてモデルベース強化学習が利用されているが,オフラインの問題設定に単純にダイナミクスモデルを組み込むだけでは性能を発揮できない.本研究では,モデルベース強化学習において,オフラインデータを利用して方策を学習する新たな手法を提案する.本提案手法は,ダイナミクスモデルのアンサンブルと,オフラインデータから推定した挙動方策とターゲット方策のダイバージェンスによる制約という2つの要素を併せ持つ.評価実験では,高次元連続制御のベンチマークを用いて,本提案手法がより小さなデータセットにおいても安定して方策を学習できることを示す.

著者関連情報
© 2020 一般社団法人 人工知能学会
前の記事 次の記事
feedback
Top