抄録
強化学習とは試行錯誤を通じて未知環境における最適行動を獲得する学習手法である.強い非定常性を持つ環境で強化学習を行う場合,学習に膨大な時間がかかってしまう可能性がある.この問題に関してさまざまな研究がされてきた.著者の知るかぎりではこれらの手法は環境変化の認知と環境への対応という2つの部分から構成されているという点で共通している.従来手法ではエージェントに環境変化を認知するセンサーを持たせ,最適行動と探索行動の切り替えを行っていたが,提案手法では確率分布としての状態価値をベイズ更新することにより環境変化時の最適行動と探索行動を確率分布に従って切り替えられるようになる.