人工知能学会全国大会論文集
Online ISSN : 2758-7347
第35回 (2021)
セッションID: 1G2-GS-2a-03
会議情報

信頼度を近似推定可能にした認知的満足化方策
*南 朱音吉井 佑輝甲野 佑高橋 達二
著者情報
会議録・要旨集 フリー

詳細
抄録

ビデオゲームを人間と同等にプレイするなど深層強化学習の発展は目覚ましい.しかし深層強化学習は連続的な状態行動空間の学習を可能とする一方,強化学習特有の探索とパラメータ学習に必要なデータのサンプリング回数が膨大となる問題がある.そこで膨大な探索回数を抑えるため,従来の最適化とは異なる満足化なる適応手法に着目した.満足化はある一定の目標水準を満たす選択肢を速やかに見つけ出す.この満足化に着目し考案された Risk-sensitive Satisficing ( RS )は,強化学習の中でも単純な問題である K 本腕バンディット問題において,少数の探索で最適な行動系列を学習できることが明らかになっている.その RS の線形近似手法として linear RS ( LinRS ) が考案されたが,各選択肢の試行割合の線形近似方法について十分な議論がなされていなかった.そこで本研究では分析を通じて LinRS の試行割合の近似方法を修正した StableLinRS を新たに提案する.また文脈付きバンディット問題において StableLinRS と既存手法を比較しその有用性を示す.

著者関連情報
© 2021 一般社団法人 人工知能学会
前の記事 次の記事
feedback
Top