主催: 一般社団法人 人工知能学会
会議名: 2022年度人工知能学会全国大会(第36回)
回次: 36
開催地: 京都国際会館+オンライン
開催日: 2022/06/14 - 2022/06/17
一般にゲームAIではプレイヤが探索木と局面評価値による予測シミュレーションを用いて行動を選択する. 2人ゲーム(将棋など)において,選択探索の1つであるMC Softmax探索とその局面評価関数の学習法が2018年に五十嵐らにより提案されている.この学習法は行動/状態価値の学習パラメータに関する勾配ベクトルを探索木に沿って再帰的に計算する方法であり,回帰,TD法,方策勾配法,ブートストラップ法(Q学習)などの複数の強化学習法の同時適用や,教師あり学習への適用が可能である. 本研究では2人ゲームという枠組みに制限することなく,一般の機械学習の問題に適用できるように理論の拡張を行った. さらに,環境モデル中のパラメータに関する勾配ベクトルも同様の方法で計算可能である.例えば,正解の状態・行動列が与えられた模倣学習における報酬関数の推定にも本方式は適用することができる. また,上記では探索木を生成後に評価関数などの学習を行うことを前提としていたが,両者の同時実行も可能である.本研究では,提案方式を簡単な迷路脱出の例題に適用し,提案方式により学習が行えることを示した.