人工知能学会全国大会論文集
Online ISSN : 2758-7347
第34回 (2020)
セッションID: 1Q4-GS-11-03
会議情報

モデルフリーとモデルベースの協同による並列深層強化学習
*内部 英治
著者情報
会議録・要旨集 フリー

詳細
抄録

強化学習は環境のモデルを陽に推定し学習に利用するモデルベース法と,実際または仮想的に得られた状態行動遷移対から学習するモデルフリー法に大別できる.我々はこれまでに性質の異なる複数のモデルフリー強化学習器を並列に学習させつつ性能に応じて学習器を動的に切り替える手法CRAILを提案し,単純なアルゴリズムが複雑なアルゴリズムの学習に貢献することを示した.本研究はCRAILを拡張し,モデルベースとモデルフリー強化学習アルゴリズムの動的な切り替えが学習効率の改善に寄与するか,また切り替えがどのようなタイミングで発生するかを調査した. 提案手法をベンチマーク課題であるMuJoCoに適用しモジュール構造を用いない場合と比較した.学習の初期段階では単純なネットワークを使ってモデルを推定するモデルベース法が選択され,学習後期ではモデルを複雑なネットワークで推定するモデルベース法が選択され,モデルフリー法はほとんど利用されなかった.一方で,推定モデルの精度が低い場合には経験再生を用いたモデルフリー法を最終的に使用する結果が得られた,これは神経科学で得られた知見とは異なっており,その理由について考察する.

著者関連情報
© 2020 一般社団法人 人工知能学会
前の記事 次の記事
feedback
Top