ベイズ推定
は観測データから, データの生成過程を確率的に推論することができる統計的推定方法である. 近年画像生成AIとして注目されている Stable Diffusion などにも活用されていることから,
ベイズ推定
は機械学習モデルにおいて重要な役割を持つ要素技術の一つであると言える. 一方で,
ベイズ推定
そのものの問題点として, 推定の間は過去の情報を現在の情報と同等に評価してしまうことが挙げられる. これは定常環境では問題はないが, 途中で対象の状態が変わるような非定常環境においては従来の
ベイズ推定
では対応できないことが考えられる. 例えば強化学習のタスクであるバンディット問題において,
ベイズ推定
を基にした方策である Thompson sampling というアルゴリズムは, 定常環境では特に良い性能を示すが非定常環境では性能が極端に低下する. 先行研究では
ベイズ推定
に忘却率と学習率という概念を導入した拡張型
ベイズ推定
という手法が提案されている. 本研究ではバンディット問題において拡張型
ベイズ推定
を用いたアルゴリズムを使って定常・非定常環境への対応を検証し, 拡張型
ベイズ推定
の忘却率及び学習率の役割を考察する.
抄録全体を表示