強化学習を用いた現代型モバイルゲーム『逆転オセロニア』のトップレベル対戦 AI

大渡 勝己; 後藤 優太; 甲野 佑; 田中 一樹

doi:10.11517/pjsai.JSAI2023.0_2Q4OS27b05

抄録

強化学習は主体的にデータ獲得して学習する，ある種の万能性を持った機械学習手法であり，ゲーム分野において複雑なゲーム手順の学習も可能になってきている．本研究で扱う『逆転オセロニア』は 2016 年 2 月から運営が続いているモバイル型の 2 人対戦ゲームであり，長期の運用を経て数多くのキャラクターが追加されたことで非常に多種多様な戦略を有する．我々はこのような複雑な現代型ゲームでも強化学習によってトップレベルの強さを有するプレイヤー AI が作れることを示す．このようなゲームの学習の困難な点は戦略パターンを学習するためのデータ量を膨大に必要とすることだが，本件では分散型強化学習アーキテクチャを使用する他，既存のプレイヤーの対戦データを学習時に混入させることでカリキュラム的に初期の学習の立ち上がりが改善した．また，空間的な状態依存の情報，集合的な順不同な情報を統合する必要があり Transformer などを組み合わせたネットワークにて学習を行なった．その他ドメインに依存する / しない様々な工夫により強さを実現した．また本研究ではゲームの更新に合わせた継続的な AI の追従も議論する．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）