仮想的な探索を用いて文脈や時間の経過による番狂わせにも迅速に追従する多腕バンディット手法

三宅 悠介; 峯 恒憲

doi:10.57413/wii.17.0_19

抄録

多腕バンディット問題は，腕と呼ばれる複数の候補から得られる報酬を最大化する問題である．同問題のWebサービスへの応用では，利用者の嗜好傾向が多様かつ継続的に変化する課題に対処するため，文脈や時間の経過を考慮した問題設定への拡張と方策が提案されている．しかし従来の方策は，腕の相対的な有用性が逆転する環境で，不充分な追従性や非効率な探索に起因する機会損失が増加してしまう．本研究では，このような番狂わせを含む環境であっても機会損失を低減可能な方策を提案する．提案手法では，線形カルマンフィルタを用いた継続的な状態推定によって文脈や時間の経過に応じた変化に迅速に追従する．さらに，状態推定の欠損値処理を仮想的な探索に見立て，探索効率を高める．評価では，方策の追従性と探索効率を分析するための新たな指標を導入し，これらが従来の方策と比べて提案手法により改善することを確認した．

著者関連情報

2021 この論文のすべての権利と著作権は著者に帰属します。

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）