『ぷよぷよ』における深層強化学習による自己対戦の適応

福地 昂大; 三宅 陽一郎

doi:10.11517/pjsai.JSAI2023.0_2M5GS1001

抄録

近年、ボードゲームだけでなくビデオゲームにおいて、自己対戦を使用することで戦略の獲得に成功している。本研究では、一人用と対戦用の落ち物パズルゲーム『ぷよぷよ』において、自己対戦と深層強化学習を用いて、戦略を学習させた研究の報告をする。自己対戦とは、エージェント同士が対戦してログを生成し、そのログを用いて学習する手法である。本実験では、Unityを使用してパズルゲームの環境を作成した。そして、強化学習ライブラリML-Agentsと深層強化学習アルゴリズムSACを使用して学習を行った。一人用ぷよぷよでは累積報酬と平均最大連鎖数を用いて評価を行った。一時的に性能は上昇したものの、最終的には少し悪くなってしまった。対戦用ぷよぷよではイロレーティングと平均最大連鎖数を用いて評価を行った。イロレーティングは初期値の1200から3100まで上昇し、最後まで上昇傾向にあった。今後の学習によってさらに強くなることが考えられる。

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）