深層満足化強化学習に向けて

佐鳥 玖仁朗; 吉田 豊; 神谷 匠; 高橋 達二

doi:10.11517/pjsai.JSAI2019.0_2P1J201

抄録

強化学習では連続状態空間を扱う方法としてDQNなどが提案されているが，DQNはε‒greedyのようなランダム探索戦略に依存しているため，膨大な探索空間を扱う場合に適切な探索と活用を行うことは非常に困難である．一方で人間は満足化という意思決定傾向によりこれを解決しているとされる．その満足化を強化学習に反映したアルゴリズムとして Risk‒sensitive Satisficing (RS) が考案された．RSを深層強化学習に適用することで適切な探索と活用が期待されるが，RSは状態のカウントを用いるため，DQNで扱うタスクのような状態が極めて多い環境において同一の状態が観測されにくく，状態のカウントが効率的でないという問題がある．本研究では，その解決のため，連続状態空間での状態の不確実性から内発的動機付けを行うために連続状態空間から擬似的に状態をカウントする方法として利用されている擬似カウントとハッシュ関数+オートエンコーダを用いてRSを深層強化学習へ適用する手法を提案する．この手法を用いた実験により，RSが深層強化学習における効率的な学習を可能とすることを示す．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）