非マルコフ環境と経験再生

太田 宏之; 樋口 滉規; 高橋 達二; 石塚 俊晶

doi:10.11517/pjsai.JSAI2023.0_2Q1OS27a03

抄録

本論文では、海馬の経験再生能力を活用し、強化学習アルゴリズムを非マルコフ型環境に適用する際に遭遇する課題の解決策を探索する。非マルコフ型環境では、文脈情報を用いて状態を識別する識別器を訓練するために、多くの試行錯誤を繰り返す必要がある。一方、ヒトや動物は、複雑な報酬条件や状態遷移条件を持つ非マルコフ型シナリオにおいても、成功した行動を速やかに再現することができる。最近の神経科学研究では、げっ歯類の海馬が運動を開始する前に過去の経験を繰り返し再生しており、経路計画や非マルコフ型タスクを解決する役割を担っていることが明らかにされている。我々は、行動選択の前に過去に成功した行動パターンを再生し、再生に基づく時間的バイアスを行動値に適用することで、非マルコフ型課題を効果的に解決する新しい強化学習モデルを提案する。このアプローチにより、文脈情報による状態の識別に必要な試行錯誤の繰り返し回数が大幅に削減され、成功した行動を迅速に再現できるようになり、人間や動物の能力を模倣することができた。

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）