抄録
本論文では,エージェントが使用するメモリを削減するための鎖型状態行動学習を提案する.実環境においては,細やかで精密な学習と状態数と行動数にさくメモリ数,学習時間との間にトレードオフの関係が存在する.この問題を解決するために,強化学習の学習プロセスの中で,推定価値を “良い” と “良くない” の2パターンと大まかにとらえ, “良い” 状態行動対を一直線状に並べる方法へと変更する.さらに,列の順番それ自体を優先順位として与える.いくつかの単純なシミュレーションを行い,この手法の影響を観察した.それらのシミュレーション結果から,低メモリ環境での提案手法が多量のメモリを必要とする従来法と同等な学習能力を確認することができた.