目的志向探索と段階的目的水準制御

石倉 圭悟; 久米 淳; 高橋 達二; 甲野 佑

doi:10.11517/pjsai.JSAI2023.0_3R5GS203

抄録

人間は目的水準を徐々に更新することによって高い目標の達成を試みる．そして目的水準に対する達成への試行錯誤は非常に素早い．それにより効率的で段階的に手順の最適化を行う事ができる．後者の試行錯誤能力は先行研究から強化学習の文脈で Risk-sensitive Satisficing (RS) なるアルゴリズムが存在する．一方で前者と組み合わせた枠組みでの段階的な目的水準の更新について議論が欠けていた．目的を持つ利点とはその設定に事前知識を使える事だと思われる．動物であれば消費カロリーを最低基準として餌を探すことや，産業応用では業務コストや投資家向けの数値目標に対応する．それが達成されれば目標を上方，達成不可能となれば下方に目標を修正していく．また他エージェントが良い成績記録を出したなどから，伝聞情報に基づく目的の変更も可能であり非常に柔軟である．本研究では合目的探索である RS と目的水準の段階的修正についてバンディット問題シミュレーションを通して検証を行う．それにより事前知識や身体構造に基づいた事前分布に相当する初期目的水準を持つことで効率よく行動を最適化する自然な形式を提案する．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）