Webインテリジェンスとインタラクション研究会 予稿集
Online ISSN : 2758-2922
第17回研究会
会議情報

セッション2:機械学習と最適化
仮想的な探索を用いて文脈や時間の経過による番狂わせにも迅速に追従する多腕バンディット手法
三宅 悠介峯 恒憲
著者情報
会議録・要旨集 フリー

p. 19-24

詳細
抄録

多腕バンディット問題は,腕と呼ばれる複数の候補から得られる報酬を最大化する問題である.同問題のWebサービスへの応用では,利用者の嗜好傾向が多様かつ継続的に変化する課題に対処するため,文脈や時間の経過を考慮した問題設定への拡張と方策が提案されている.しかし従来の方策は,腕の相対的な有用性が逆転する環境で,不充分な追従性や非効率な探索に起因する機会損失が増加してしまう.本研究では,このような番狂わせを含む環境であっても機会損失を低減可能な方策を提案する.提案手法では,線形カルマンフィルタを用いた継続的な状態推定によって文脈や時間の経過に応じた変化に迅速に追従する.さらに,状態推定の欠損値処理を仮想的な探索に見立て,探索効率を高める.評価では,方策の追従性と探索効率を分析するための新たな指標を導入し,これらが従来の方策と比べて提案手法により改善することを確認した.

著者関連情報
2021 この論文のすべての権利と著作権は著者に帰属します。
前の記事 次の記事
feedback
Top