信頼度を近似推定可能にした認知的満足化方策

南 朱音; 吉井 佑輝; 甲野 佑; 高橋 達二

doi:10.11517/pjsai.JSAI2021.0_1G2GS2a03

抄録

ビデオゲームを人間と同等にプレイするなど深層強化学習の発展は目覚ましい．しかし深層強化学習は連続的な状態行動空間の学習を可能とする一方，強化学習特有の探索とパラメータ学習に必要なデータのサンプリング回数が膨大となる問題がある．そこで膨大な探索回数を抑えるため，従来の最適化とは異なる満足化なる適応手法に着目した．満足化はある一定の目標水準を満たす選択肢を速やかに見つけ出す．この満足化に着目し考案された Risk-sensitive Satisficing ( RS )は，強化学習の中でも単純な問題である K 本腕バンディット問題において，少数の探索で最適な行動系列を学習できることが明らかになっている．その RS の線形近似手法として linear RS ( LinRS ) が考案されたが，各選択肢の試行割合の線形近似方法について十分な議論がなされていなかった．そこで本研究では分析を通じて LinRS の試行割合の近似方法を修正した StableLinRS を新たに提案する．また文脈付きバンディット問題において StableLinRS と既存手法を比較しその有用性を示す．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）