人工知能学会全国大会論文集
Online ISSN : 2758-7347
第38回 (2024)
セッションID: 4D3-GS-2-04
会議情報

決定木と信頼上界を用いた文脈付きバンディットアルゴリズム手法の提案
*大岩 将阿部 太一木村 恵悟鈴木 佐俊後藤 正幸
著者情報
会議録・要旨集 フリー

詳細
抄録

近年,eコマースを筆頭に様々な領域で,オンライン推薦システムである文脈付きバンディットアルゴリズムが活用されている.この手法はユーザ属性や過去の購買履歴などの「文脈情報」から,商品の購入有無などを表す「報酬」を推定することで,逐次的な推薦を行う.その際,様々な商品を推薦する「探索」と期待報酬の高い商品を推薦する「活用」をバランスよく行い,累積報酬の最大化を図る.文脈から報酬を正確に推定するためには状況に適したモデルを仮定することが肝要だが,しばしば文脈と報酬の間には非線形の関係が見受けられる.このような状況に適した手法として,決定木を用いて報酬を推定するTreeBootstrapが提案されている.しかし,TreeBootstrapでは学習データのブートストラップサンプリングを行うことで探索と活用のバランスを取っているため,活用において探索で得た情報を十分に使用できない可能性がある.そこで本研究では,学習データのブートストラップサンプリングではなく,期待報酬の信頼上界を用いて探索と活用のバランスを取るTreeUCBを提案する.人工データ,実データを用いた実験により提案手法の有効性を示す.

著者関連情報
© 2024 人工知能学会
前の記事 次の記事
feedback
Top