推薦システムにおけるモデルフリーオフライン強化学習手法に関する調査

井上 翔太; 岡本 一志

doi:10.11517/pjsai.JSAI2023.0_3Xin463

抄録

推薦システムにおいて，オフライン強化学習は，収集したログデータのみから新たな推薦方策を学習し，長期的なユーザ体験を最大化することが期待されている．しかし，新たに学習した推薦方策と収集したログデータの分布が異なる分布シフトと呼ばれる課題が存在する．本研究では，分布シフトに対処するために提案されているモデルフリーオフライン強化学習法を，教師あり正則化（SR），バッチ正則化（BR），不確実性正則化（UR）の3つに分類し，推薦システムに適用した場合の各手法を比較する．評価実験では、セッションベース推薦システム用のデータセットを用いて、クリックと購入の推薦精度を比較する．それぞれについて性能比較を行い、制約がデータセットの分布に強く近づくほど、ベースラインであるGRU4Recと比較して推薦精度が悪くなることを確認した．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）