状態価値に確率分布を用いた強化学習

佐藤 亘; 橘 完太

doi:10.14864/fss.30.0_180

抄録

強化学習とは試行錯誤を通じて未知環境における最適行動を獲得する学習手法である．強い非定常性を持つ環境で強化学習を行う場合，学習に膨大な時間がかかってしまう可能性がある．この問題に関してさまざまな研究がされてきた．著者の知るかぎりではこれらの手法は環境変化の認知と環境への対応という2つの部分から構成されているという点で共通している．従来手法ではエージェントに環境変化を認知するセンサーを持たせ，最適行動と探索行動の切り替えを行っていたが，提案手法では確率分布としての状態価値をベイズ更新することにより環境変化時の最適行動と探索行動を確率分布に従って切り替えられるようになる．

著者関連情報

お気に入り & アラート

お気に入りに追加
追加情報アラート
被引用アラート
認証解除アラート

閲覧履歴

Privacy preserving Q-learning method for Secure Multiparty Computation
Asymptotic behavior of flat surfaces in hyperbolic 3-space
GNSS Observation and Monitoring of the Hakone Volcano and the 2015 Unrest

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）