人工知能学会全国大会論文集
Online ISSN : 2758-7347
第39回 (2025)
セッションID: 3Win5-07
会議情報

目標志向探索における満足化水準の二重強化学習
*中村 航高橋 達二甲野 佑
著者情報
会議録・要旨集 フリー

詳細
抄録

人間が新しいことを始める時、まず初級の技能を目指し、次に中、上級と段階的に学習を深めていく。つまり初期からの最適化ではなく目標達成を志向する。本研究は主たる行動の学習手法である強化学習を、目標志向な探索と目標の段階的調整に分解・再構成する考えを背景とする。その具体的なアルゴリズムである Risk-sensitive Satisficing (RS) は目標からなる主観的な regret の最小化によって、速やかに満足化を行う。更に RS はバンディット問題にて、目標そのものを動的に最適化して事前知識なしで Thompson Sampling と同等の性能を示している。これは強化学習を前述した二つの要素に分解・再構成した一例と言える。しかし現目標調整手法はバンディット問題に特化しており、強化学習全般には適用できない。本研究では運動制御に使われる強化学習をベースとした汎用的な目標調整アルゴリズムを提案する。一見強化学習を単に複雑化させたようだが、高速な目標水準の達成と目標という一次元の最適化という各々簡便な強化学習の二重化によって目標という概念が扱えることに留意されたい。

著者関連情報
© 2025 人工知能学会
前の記事 次の記事
feedback
Top