MC Softmax探索における学習方式：サンプリングによる局面評価関数の強化学習

粂川 叶; 岩本 裕大; 五十嵐 治一; 杉本 徹

doi:10.11517/pjsai.JSAI2022.0_2O5GS505

抄録

一般にゲームAIではプレイヤが探索木と局面評価値による予測シミュレーションを用いて行動を選択する． 2人ゲーム（将棋など）において，選択探索の1つであるMC Softmax探索とその局面評価関数の学習法が2018年に五十嵐らにより提案されている．この学習法は行動/状態価値の学習パラメータに関する勾配ベクトルを探索木に沿って再帰的に計算する方法であり，回帰，TD法，方策勾配法，ブートストラップ法（Q学習）などの複数の強化学習法の同時適用や，教師あり学習への適用が可能である．本研究では2人ゲームという枠組みに制限することなく，一般の機械学習の問題に適用できるように理論の拡張を行った．さらに，環境モデル中のパラメータに関する勾配ベクトルも同様の方法で計算可能である．例えば，正解の状態・行動列が与えられた模倣学習における報酬関数の推定にも本方式は適用することができる．また，上記では探索木を生成後に評価関数などの学習を行うことを前提としていたが，両者の同時実行も可能である．本研究では，提案方式を簡単な迷路脱出の例題に適用し，提案方式により学習が行えることを示した．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）