主催: 一般社団法人 人工知能学会
会議名: 2021年度人工知能学会全国大会(第35回)
回次: 35
開催地: オンライン
開催日: 2021/06/08 - 2021/06/11
強化学習の基本的な問題であるバンディット問題は,インターネット広告配信やゲーム木探索などに幅広く応用されている.とりわけ注目され始めているのが,明示的な報酬の観測が必要な従来の設定と対照的に,一対比較による相対的な報酬を用いる設定に拡張した比較バンディット問題である.その解法の中ではDouble Thompson Sampling (D-TS)が高い性能を示す.これは確率分布からランダムに抽出された行動価値に従うことで最適な行動を探索する手法である.しかし比較バンディット問題は一対比較であるため,いずれの既存手法も必要となる試行錯誤の多さに悩まされる.そこで本研究では,満足化という目標水準を満たす行動を素早く探索する人間の意思決定方法に着目し,価値関数のレベルで満足化を実装したRisk-sensitive Satisficingを活用するアルゴリズムを提案する.既存または乱数によるデータセットで検証した結果,D-TSより性能の劣るデータセットも一部あるものの,比較バンディット問題を解くアルゴリズムの性能指標である弱い後悔の値においては既存手法よりも性能を改善できたことを報告する.