主催: Webインテリジェンスとインタラクション研究会
会議名: WI2研究会
回次: 17
開催地: zoomによるオンライン開催
開催日: 2021/12/17 - 2021/12/18
p. 19-24
多腕バンディット問題は,腕と呼ばれる複数の候補から得られる報酬を最大化する問題である.同問題のWebサービスへの応用では,利用者の嗜好傾向が多様かつ継続的に変化する課題に対処するため,文脈や時間の経過を考慮した問題設定への拡張と方策が提案されている.しかし従来の方策は,腕の相対的な有用性が逆転する環境で,不充分な追従性や非効率な探索に起因する機会損失が増加してしまう.本研究では,このような番狂わせを含む環境であっても機会損失を低減可能な方策を提案する.提案手法では,線形カルマンフィルタを用いた継続的な状態推定によって文脈や時間の経過に応じた変化に迅速に追従する.さらに,状態推定の欠損値処理を仮想的な探索に見立て,探索効率を高める.評価では,方策の追従性と探索効率を分析するための新たな指標を導入し,これらが従来の方策と比べて提案手法により改善することを確認した.