2019 年 21 巻 1 号 p. 41-48
従来研究では,推薦システムを表現するための確率モデルとしてマルコフ決定過程が採用されている.他方,多くの分野において,ニューラルネットワークを用いた強化学習方法が提案されている.しかし,推薦システムにおけるニューラルネットワークを用いた強化学習方法は提案されていない.そこで,本研究では,マルコフ決定過程の真のパラメータが未知の仮定のもとで推薦システムにおける全結合ニューラルネットワークを用いた強化学習方法を提案する.提案方法では顧客の性質を表現するために顧客の履歴情報を利用する.シミュレーションによって提案方法の有効性を示す.シミュレーション結果では,提案方法の出力が最適解と一致した.