主催: 一般社団法人 人工知能学会
会議名: 2024年度人工知能学会全国大会(第38回)
回次: 38
開催地: アクトシティ浜松+オンライン
開催日: 2024/05/28 - 2024/05/31
近年,eコマースを筆頭に様々な領域で,オンライン推薦システムである文脈付きバンディットアルゴリズムが活用されている.この手法はユーザ属性や過去の購買履歴などの「文脈情報」から,商品の購入有無などを表す「報酬」を推定することで,逐次的な推薦を行う.その際,様々な商品を推薦する「探索」と期待報酬の高い商品を推薦する「活用」をバランスよく行い,累積報酬の最大化を図る.文脈から報酬を正確に推定するためには状況に適したモデルを仮定することが肝要だが,しばしば文脈と報酬の間には非線形の関係が見受けられる.このような状況に適した手法として,決定木を用いて報酬を推定するTreeBootstrapが提案されている.しかし,TreeBootstrapでは学習データのブートストラップサンプリングを行うことで探索と活用のバランスを取っているため,活用において探索で得た情報を十分に使用できない可能性がある.そこで本研究では,学習データのブートストラップサンプリングではなく,期待報酬の信頼上界を用いて探索と活用のバランスを取るTreeUCBを提案する.人工データ,実データを用いた実験により提案手法の有効性を示す.