抄録
本発表では、FPSゲームにおけるBots(コンピュータプレイヤー)を構築するための分布推定アルゴリズムを提案する。これまでに強化学習問題解決のための分布推定アルゴリズム(EDA-RL)を提案しており、そこでは、1)政策(確率モデル)を用いて環境との相互作用によりエピソードを獲得し、2)良好エピソードを選択する。さらに、3)良好エピソードに内在する知覚-行為系列から新たな政策を推定する。EDA-RLでは、この手順を繰り返すことにより、政策の改善を行う。本発表では、FPSゲームの一つであるUnreal Tournamentを対象とした。このゲームでは入出力が連続値で表現される。そのため、本研究では、連続値を取り扱うことができる確率モデルであるGaussianNetworkを用いることを検討した。