主催: 一般社団法人 人工知能学会
会議名: 2021年度人工知能学会全国大会(第35回)
回次: 35
開催地: オンライン
開催日: 2021/06/08 - 2021/06/11
ビデオゲームを人間と同等にプレイするなど深層強化学習の発展は目覚ましい.しかし深層強化学習は連続的な状態行動空間の学習を可能とする一方,強化学習特有の探索とパラメータ学習に必要なデータのサンプリング回数が膨大となる問題がある.そこで膨大な探索回数を抑えるため,従来の最適化とは異なる満足化なる適応手法に着目した.満足化はある一定の目標水準を満たす選択肢を速やかに見つけ出す.この満足化に着目し考案された Risk-sensitive Satisficing ( RS )は,強化学習の中でも単純な問題である K 本腕バンディット問題において,少数の探索で最適な行動系列を学習できることが明らかになっている.その RS の線形近似手法として linear RS ( LinRS ) が考案されたが,各選択肢の試行割合の線形近似方法について十分な議論がなされていなかった.そこで本研究では分析を通じて LinRS の試行割合の近似方法を修正した StableLinRS を新たに提案する.また文脈付きバンディット問題において StableLinRS と既存手法を比較しその有用性を示す.