目標志向探索における満足化水準の二重強化学習

中村 航; 高橋 達二; 甲野 佑

doi:10.11517/pjsai.JSAI2025.0_3Win507

抄録

人間が新しいことを始める時、まず初級の技能を目指し、次に中、上級と段階的に学習を深めていく。つまり初期からの最適化ではなく目標達成を志向する。本研究は主たる行動の学習手法である強化学習を、目標志向な探索と目標の段階的調整に分解・再構成する考えを背景とする。その具体的なアルゴリズムである Risk-sensitive Satisficing (RS) は目標からなる主観的な regret の最小化によって、速やかに満足化を行う。更に RS はバンディット問題にて、目標そのものを動的に最適化して事前知識なしで Thompson Sampling と同等の性能を示している。これは強化学習を前述した二つの要素に分解・再構成した一例と言える。しかし現目標調整手法はバンディット問題に特化しており、強化学習全般には適用できない。本研究では運動制御に使われる強化学習をベースとした汎用的な目標調整アルゴリズムを提案する。一見強化学習を単に複雑化させたようだが、高速な目標水準の達成と目標という一次元の最適化という各々簡便な強化学習の二重化によって目標という概念が扱えることに留意されたい。

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）