人工知能学会全国大会論文集
Online ISSN : 2758-7347
第37回 (2023)
セッションID: 2Q1-OS-27a-03
会議情報

非マルコフ環境と経験再生
*太田 宏之樋口 滉規高橋 達二石塚 俊晶
著者情報
キーワード: 強化学習, 経験再生
会議録・要旨集 フリー

詳細
抄録

本論文では、海馬の経験再生能力を活用し、強化学習アルゴリズムを非マルコフ型環境に適用する際に遭遇する課題の解決策を探索する。非マルコフ型環境では、文脈情報を用いて状態を識別する識別器を訓練するために、多くの試行錯誤を繰り返す必要がある。一方、ヒトや動物は、複雑な報酬条件や状態遷移条件を持つ非マルコフ型シナリオにおいても、成功した行動を速やかに再現することができる。最近の神経科学研究では、げっ歯類の海馬が運動を開始する前に過去の経験を繰り返し再生しており、経路計画や非マルコフ型タスクを解決する役割を担っていることが明らかにされている。我々は、行動選択の前に過去に成功した行動パターンを再生し、再生に基づく時間的バイアスを行動値に適用することで、非マルコフ型課題を効果的に解決する新しい強化学習モデルを提案する。このアプローチにより、文脈情報による状態の識別に必要な試行錯誤の繰り返し回数が大幅に削減され、成功した行動を迅速に再現できるようになり、人間や動物の能力を模倣することができた。

著者関連情報
© 2023 人工知能学会
前の記事 次の記事
feedback
Top