2024 年 36 巻 1 号 p. 589-600
人間や動物は,試行錯誤を通じた学習経験を類似状態へ汎化し,特定の達成レベルを目指すことで複雑な環境を効率的に探索する.その際,選択肢の特徴や各時点の状況といった文脈情報を扱うための環境のモデル構築も同時におこなう.本論文では,文脈を考慮する意思決定モデルとして Regional Linear Risk-sensitive Satisficing(RegLinRS)を提案する.RegLinRS は人間や動物の探索の仕方とリスク態度を取り入れた,高い効率性を持つアルゴリズムである.採餌環境を表現した人工データセットを用いた文脈付きバンディット問題のシミュレーションにより,提案手法の性能と探索効率を評価する.さらに,エージェントの生存という目的に対する探索プロセスの合目的性を分析する.提案手法がエージェントの期待損失を抑えつつ,素早く生存ラインを確保できる生態学的合理性を持つことが示された.