主催: 一般社団法人 人工知能学会
会議名: 2024年度人工知能学会全国大会(第38回)
回次: 38
開催地: アクトシティ浜松+オンライン
開催日: 2024/05/28 - 2024/05/31
多目的閾値バンディット問題は,与えられたK個の腕集合の中から、各時刻に1腕選び多値の報酬を得ることを繰り返し、全ての優良腕を同定することを目的としている.ここで,優良腕とは全ての評価指標において、全ての次元の期待報酬が共に与えられた閾値以上である腕のことを指す.固定信頼度の設定において,この問題において漸近的下界を達成する最適な各腕を引く割合を示し,停止条件に使われる一般化尤度比統計量の式を示す.それらと事後分布サンプリングに基づくアルゴリズムP-Trackingをこの問題に適用する.また,P-Trackingアルゴリズムの有効性について人工データを用いて検証する.多次元報酬の閾値バンディット問題において事後分布サンプリングではなく,強制探索により期待報酬推定の補正を行うC-TrackingとD-Trackingに加え,一次元報酬の閾値バンディット問題において有効なHDoCの単純な二次元拡張版との実験による比較では,P-Trackingが平均的により少ない報酬サンプルから閾値以上の腕の集合の同定を行うことが確認できた.