人工知能学会全国大会論文集
Online ISSN : 2758-7347
第37回 (2023)
セッションID: 3R5-GS-2-05
会議情報

目的志向強化学習における未来考慮型信頼度の頑健性
*有村 柊一高橋 達二甲野 祐
著者情報
キーワード: 強化学習
会議録・要旨集 フリー

詳細
抄録

人間は目標である希求水準を定めることで探索と知識利用のバランスをとり,目標を満たす行動系列を効率的に学習できる.この合目的解を高速に探索できる意思決定傾向を,強化学習での探索手法として応用したのが Risk-sensitive Satisficing (RS) である. しかし RS は状態行動系列を上手く扱うことができず,強化学習全般への適応が完全とは言えない.その理由は RS で参照する行動の試行度合い(信頼度)を系列や方策全体へ拡張する方法が不明であったためである.それに対し系列からの信頼度の学習を可能にした手法に, 深層強化学習で用いられる経験記憶を利用し現在状態を照合し,過去の経験から未来を考慮した信頼度を動的に計算するものが提案されている. この手法は非定常環境における追従性を獲得しており, 既存手法を上回ることが期待されている. 一方でその性能は限られたタスクのみで検証されているもので, 広く強化学習タスクにおいて有効かどうかはわかっていない. 今回我々は未来考慮型信頼度を様々な強化学習タスクで検証・考察することによって, 強化学習全般への適応を目指す.

著者関連情報
© 2023 人工知能学会
前の記事 次の記事
feedback
Top