低メモリ学習エージェントのための鎖型状態行動学習

野津 亮; 小森 祐希; 本多 克宏; 市橋 秀友; 岩元 優希

doi:10.3156/jsoft.24.691

ショートノート

低メモリ学習エージェントのための鎖型状態行動学習

野津亮, 小森祐希, 本多克宏, 市橋秀友, 岩元優希

著者情報

キーワード: 強化学習, Q学習, 状態－行動対の分類

ジャーナルフリー

2012 年 24 巻 2 号 p. 691-696

DOI https://doi.org/10.3156/jsoft.24.691

詳細

抄録

本論文では，エージェントが使用するメモリを削減するための鎖型状態行動学習を提案する．実環境においては，細やかで精密な学習と状態数と行動数にさくメモリ数，学習時間との間にトレードオフの関係が存在する．この問題を解決するために，強化学習の学習プロセスの中で，推定価値を “良い” と “良くない” の２パターンと大まかにとらえ， “良い” 状態行動対を一直線状に並べる方法へと変更する．さらに，列の順番それ自体を優先順位として与える．いくつかの単純なシミュレーションを行い，この手法の影響を観察した．それらのシミュレーション結果から，低メモリ環境での提案手法が多量のメモリを必要とする従来法と同等な学習能力を確認することができた．

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）