人工知能学会全国大会論文集
Online ISSN : 2758-7347
第37回 (2023)
セッションID: 3R5-GS-2-02
会議情報

非定常な文脈付きバンディット問題における目的志向探索
*伊東 将吾水野 桜坪谷 朱音高橋 達二甲野 佑
著者情報
会議録・要旨集 フリー

詳細
抄録

広告配信やレコメンドシステムの選定アルゴリズムは,Web サービスには不可欠な存在となっている.人々の趣味嗜好は流動的であり,アルゴリズムにおいては非定常環境下での追従性が重要になってくる.そこで我々は最適化ではなく目的達成を重視する,人間の意思決定傾向に着目した.このような目的志向型の探索を行うエージェントは,環境の変化ではなく目的の達成度に応じた探索を行うため,環境変化に対して頑健で,柔軟かつ追従性の高い意思決定が期待できる.目的志向型の意思決定を取り入れたメタ方策としてRisk-sensitive Satisficing (RS) が考案されている.先行研究では非定常環境下での追従性に優れていた.しかし文脈付きバンディット問題における非定常環境下でも追従性が保たれているかは未検証であった.本研究では RS を近似関数に拡張した Regional Linear Risk-sensitive Satisficing (RegLinRS) にも忘却という概念を導入することにより,時間経過とともに変化する非定常な報酬環境下での文脈付きバンディット問題への追従性を検証し,その有用性を示す.

著者関連情報
© 2023 人工知能学会
前の記事 次の記事
feedback
Top