目的志向強化学習における未来考慮型信頼度の頑健性

有村 柊一; 高橋 達二; 甲野 祐

doi:10.11517/pjsai.JSAI2023.0_3R5GS205

抄録

人間は目標である希求水準を定めることで探索と知識利用のバランスをとり，目標を満たす行動系列を効率的に学習できる．この合目的解を高速に探索できる意思決定傾向を，強化学習での探索手法として応用したのが Risk-sensitive Satisficing (RS) である．しかし RS は状態行動系列を上手く扱うことができず，強化学習全般への適応が完全とは言えない．その理由は RS で参照する行動の試行度合い（信頼度）を系列や方策全体へ拡張する方法が不明であったためである．それに対し系列からの信頼度の学習を可能にした手法に, 深層強化学習で用いられる経験記憶を利用し現在状態を照合し，過去の経験から未来を考慮した信頼度を動的に計算するものが提案されている. この手法は非定常環境における追従性を獲得しており, 既存手法を上回ることが期待されている. 一方でその性能は限られたタスクのみで検証されているもので, 広く強化学習タスクにおいて有効かどうかはわかっていない. 今回我々は未来考慮型信頼度を様々な強化学習タスクで検証・考察することによって, 強化学習全般への適応を目指す.

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）