DQN推薦システムのための状態行動価値による埋め込み学習法

井上 翔太; 岡本 一志

doi:10.11517/pjsai.JSAI2022.0_4Yin235

抄録

アイテムやユーザの埋め込み表現は，強化学習に基づいた推薦システムにおける重要な課題のひとつである.多くの先行研究では，埋め込み表現を行列分解などにより事前学習し，方策の学習時には固定している. しかし，埋め込み表現の固定はユーザの嗜好の時間的変化を捉えられず，さらに事前学習はデータが集まり切ってない状態で行うことが難しい.本研究では，強化学習推薦システムの埋め込み表現を，状態行動価値を教師あり信号の重みとし更新する手法を提案する.現実世界で収集されたデータセット用い，推薦精度と埋め込み表現を評価する実験を行っている.実験結果より，事前学習なしでも他のベースラインと同程度の精度が出せること，ユーザやアイテムを空間内に広く分布させられる埋め込み表現の獲得を確認している.

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）