主催: 一般社団法人 人工知能学会
会議名: 2023年度人工知能学会全国大会(第37回)
回次: 37
開催地: 熊本城ホール+オンライン
開催日: 2023/06/06 - 2023/06/09
推薦システムにおいて,オフライン強化学習は,収集したログデータのみから新たな推薦方策を学習し,長期的なユーザ体験を最大化することが期待されている.しかし,新たに学習した推薦方策と収集したログデータの分布が異なる分布シフトと呼ばれる課題が存在する.本研究では,分布シフトに対処するために提案されているモデルフリーオフライン強化学習法を,教師あり正則化(SR),バッチ正則化(BR),不確実性正則化(UR)の3つに分類し,推薦システムに適用した場合の各手法を比較する.評価実験では、セッションベース推薦システム用のデータセットを用いて、クリックと購入の推薦精度を比較する.それぞれについて性能比較を行い、制約がデータセットの分布に強く近づくほど、ベースラインであるGRU4Recと比較して推薦精度が悪くなることを確認した.