決定木と信頼上界を用いた文脈付きバンディットアルゴリズム手法の提案

大岩 将; 阿部 太一; 木村 恵悟; 鈴木 佐俊; 後藤 正幸

doi:10.11517/pjsai.JSAI2024.0_4D3GS204

抄録

近年，eコマースを筆頭に様々な領域で，オンライン推薦システムである文脈付きバンディットアルゴリズムが活用されている．この手法はユーザ属性や過去の購買履歴などの「文脈情報」から，商品の購入有無などを表す「報酬」を推定することで，逐次的な推薦を行う．その際，様々な商品を推薦する「探索」と期待報酬の高い商品を推薦する「活用」をバランスよく行い，累積報酬の最大化を図る．文脈から報酬を正確に推定するためには状況に適したモデルを仮定することが肝要だが，しばしば文脈と報酬の間には非線形の関係が見受けられる．このような状況に適した手法として，決定木を用いて報酬を推定するTreeBootstrapが提案されている．しかし，TreeBootstrapでは学習データのブートストラップサンプリングを行うことで探索と活用のバランスを取っているため，活用において探索で得た情報を十分に使用できない可能性がある．そこで本研究では，学習データのブートストラップサンプリングではなく，期待報酬の信頼上界を用いて探索と活用のバランスを取るTreeUCBを提案する．人工データ，実データを用いた実験により提案手法の有効性を示す．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）