信頼度を局所的に近似する認知的満足化方策

南 朱音; 甲野 佑; 高橋 達二

doi:10.11517/pjsai.JSAI2022.0_2C4GS201

抄録

深層強化学習はニューラルネットワークの優れた近似能力によって，ゲーム画面や機械のセンサー情報など，従来扱えなかった複雑な入力情報からの学習が可能になっており，強化学習の実応用に関数近似は不可欠になりつつある．一方で実世界のように広大で複雑な環境において，有限時間内での最適な行動学習は未だに困難である．これは複雑な環境での関数近似に必要なデータ収集だけでなく，強化学習特有の探索回数の重ね合わせによるサンプリング回数の肥大化によるものである．そこで我々は探索回数の節約と関数近似の両立のため，特定の目的達成のための探索を行う人間の意思決定傾向である満足化に着目した．この傾向をレコメンド課題の一種である文脈付きバンディット問題へ応用した Linear Risk-sensitive Satisficing (LinRS) は，過去の試行記憶の近似が特徴量に対して鈍感で本来の満足化の性質を発揮しきれない問題があった．そこで本研究では Episodic memory を用いて時間的近傍領域の記憶を近似に利用した Regional LinRS を新たに提案し，既存手法と比較，その有用性を示した．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）