2025 年 37 巻 1 号 p. 501-505
本研究はパズルゲーム『ぷよぷよ』において深層強化学習を適用したものである.従来のルールベースの手法や関連性行列を用いた手法では,人間のトッププレイヤーが構築するような大きい連鎖を構築することができないという課題があった.また,深層強化学習による先行研究も,複雑な戦略を学習することが難しく,十分な性能を示せていないのが現状である.本研究では,深層強化学習によるぷよぷよAIの性能向上を目的とし,並列Actorと優先度付き経験再生を用いた.提案手法を評価するために,自作のぷよぷよ環境を用いて実験を行った結果,提案手法は平均最大連鎖数6.243,平均スコア33114を達成し,従来の深層強化学習による研究を上回る性能を示した.