抄録
本研究では,意思決定の際に類似状態における行動を想起する手法を提案する.すなわち,現在知覚した状態での経験が浅い時にランダム探索を行うのではなく,過去に評価を得た類似状態での行動を用いて試行する.これにより,ランダム探索に比べ成功報酬を得られる可能性が高まり,学習速度の向上が期待できる.また,学習初期においても良い性能を発揮できるため,オンライン学習の性能に対する要求を満たすことも可能である.計算機実験では,サッカーエージェントの協調戦術の獲得を目標とする学習に対して提案手法を適用し,比較実験によりその有効性を示す.