非定常な文脈付きバンディット問題における目的志向探索

伊東 将吾; 水野 桜; 坪谷 朱音; 高橋 達二; 甲野 佑

doi:10.11517/pjsai.JSAI2023.0_3R5GS202

抄録

広告配信やレコメンドシステムの選定アルゴリズムは，Web サービスには不可欠な存在となっている．人々の趣味嗜好は流動的であり，アルゴリズムにおいては非定常環境下での追従性が重要になってくる．そこで我々は最適化ではなく目的達成を重視する，人間の意思決定傾向に着目した．このような目的志向型の探索を行うエージェントは，環境の変化ではなく目的の達成度に応じた探索を行うため，環境変化に対して頑健で，柔軟かつ追従性の高い意思決定が期待できる．目的志向型の意思決定を取り入れたメタ方策としてRisk-sensitive Satisficing (RS) が考案されている．先行研究では非定常環境下での追従性に優れていた．しかし文脈付きバンディット問題における非定常環境下でも追従性が保たれているかは未検証であった．本研究では RS を近似関数に拡張した Regional Linear Risk-sensitive Satisficing (RegLinRS) にも忘却という概念を導入することにより，時間経過とともに変化する非定常な報酬環境下での文脈付きバンディット問題への追従性を検証し，その有用性を示す．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）