抄録
強化学習において,エージェントが使用するメモリを削減するための鎖型状態行動学習(CFRL)が提案されている.本論文では,文脈学習という視点から鎖型状態行動学習を改良した蛇型状態行動学習(SFRL)を提案する.SFRLは,状態行動対の列が最短経路を含むとき,その経路を切り取り保存していく.また,未学習状態にあるエージェントは,ランダムに行動選択するのではなく,周辺情報をもとに行動を選択するという近傍状態多数決法をSFRLに導入した手法(MVNC)も提案する.いくつかの簡単なエージェントシミュレーションを行うことで,Q学習,CFRL,そして提案する二手法を比較し,性能を評価した.