効率的な目的志向探索を行う AlphaZeRS

桜岡 良樹; 有村 柊一; 甲野 佑; 高橋 達二

doi:10.11517/pjsai.JSAI2023.0_3R5GS201

抄録

対人型のゲーム AI の分野では今でも木探索の手法が使われており，それを深層強化学習と組み合わせた AlphaZero が優れた成績を有している．一方で,単純な強さを追い求めるだけではなく対戦相手に合わせた難易度で対戦できる人工知能も,現実のサービスにおいては重要な研究であると考えられる. その様な難易度調整において最も重要なのは，相手に対して常に任意の勝率になるような戦い方であり，自然な目的勝率水準の達成を目指した AI が必要になる．その様な合目的的探索を行うアルゴリズムとして Risk-sensitive Satisficing (RS) が存在する. 本研究では AlphaZero の評価関数をPUCT から RS に変更した AlphaZeRS を提案した．RS は目的水準への素早い探索と発見を特徴としているため，既存手法と比べてノード展開数も少なくて済む可能性がある．そこで二人対戦ゲームでのシミュレーションを通してAlphaZeRS の強さの異なる相手への目的勝率水準の達成やノード展開の節約の観点から検証，考察を行った．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）