人工知能学会全国大会論文集
Online ISSN : 2758-7347
第36回 (2022)
セッションID: 2C4-GS-2-01
会議情報

信頼度を局所的に近似する認知的満足化方策
*南 朱音甲野 佑高橋 達二
著者情報
会議録・要旨集 フリー

詳細
抄録

深層強化学習はニューラルネットワークの優れた近似能力によって,ゲーム画面や機械のセンサー情報など,従来扱えなかった複雑な入力情報からの学習が可能になっており,強化学習の実応用に関数近似は不可欠になりつつある.一方で実世界のように広大で複雑な環境において,有限時間内での最適な行動学習は未だに困難である.これは複雑な環境での関数近似に必要なデータ収集だけでなく,強化学習特有の探索回数の重ね合わせによるサンプリング回数の肥大化によるものである.そこで我々は探索回数の節約と関数近似の両立のため,特定の目的達成のための探索を行う人間の意思決定傾向である満足化に着目した.この傾向をレコメンド課題の一種である文脈付きバンディット問題へ応用した Linear Risk-sensitive Satisficing (LinRS) は,過去の試行記憶の近似が特徴量に対して鈍感で本来の満足化の性質を発揮しきれない問題があった.そこで本研究では Episodic memory を用いて時間的近傍領域の記憶を近似に利用した Regional LinRS を新たに提案し,既存手法と比較,その有用性を示した.

著者関連情報
© 2022 人工知能学会
前の記事 次の記事
feedback
Top