モデルフリーとモデルベースの協同による並列深層強化学習

内部 英治

doi:10.11517/pjsai.JSAI2020.0_1Q4GS1103

抄録

強化学習は環境のモデルを陽に推定し学習に利用するモデルベース法と，実際または仮想的に得られた状態行動遷移対から学習するモデルフリー法に大別できる．我々はこれまでに性質の異なる複数のモデルフリー強化学習器を並列に学習させつつ性能に応じて学習器を動的に切り替える手法CRAILを提案し，単純なアルゴリズムが複雑なアルゴリズムの学習に貢献することを示した．本研究はCRAILを拡張し，モデルベースとモデルフリー強化学習アルゴリズムの動的な切り替えが学習効率の改善に寄与するか，また切り替えがどのようなタイミングで発生するかを調査した．提案手法をベンチマーク課題であるMuJoCoに適用しモジュール構造を用いない場合と比較した．学習の初期段階では単純なネットワークを使ってモデルを推定するモデルベース法が選択され，学習後期ではモデルを複雑なネットワークで推定するモデルベース法が選択され，モデルフリー法はほとんど利用されなかった．一方で，推定モデルの精度が低い場合には経験再生を用いたモデルフリー法を最終的に使用する結果が得られた，これは神経科学で得られた知見とは異なっており，その理由について考察する．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）