人工知能学会全国大会論文集
Online ISSN : 2758-7347
第33回 (2019)
セッションID: 2P1-J-2-01
会議情報

深層満足化強化学習に向けて
*佐鳥 玖仁朗吉田 豊神谷 匠高橋 達二
著者情報
会議録・要旨集 フリー

詳細
抄録

強化学習では連続状態空間を扱う方法としてDQNなどが提案されているが,DQNはε‒greedyのようなランダム探索戦略に依存しているため,膨大な探索空間を扱う場合に適切な探索と活用を行うことは非常に困難である.一方で人間は満足化という意思決定傾向によりこれを解決しているとされる.その満足化を強化学習に反映したアルゴリズムとして Risk‒sensitive Satisficing (RS) が考案された.RSを深層強化学習に適用することで適切な探索と活用が期待されるが,RSは状態のカウントを用いるため,DQNで扱うタスクのような状態が極めて多い環境において同一の状態が観測されにくく,状態のカウントが効率的でないという問題がある.本研究では,その解決のため,連続状態空間での状態の不確実性から内発的動機付けを行うために連続状態空間から擬似的に状態をカウントする方法として利用されている擬似カウントとハッシュ関数+オートエンコーダを用いてRSを深層強化学習へ適用する手法を提案する.この手法を用いた実験により,RSが深層強化学習における効率的な学習を可能とすることを示す.

著者関連情報
© 2019 一般社団法人 人工知能学会
前の記事 次の記事
feedback
Top