自己対戦型深層強化学習における探索結果の利用

神子島 一弥; 野田 五十樹; 小山 聡

doi:10.11517/pjsai.JSAI2023.0_2D4GS202

第37回 (2023)

セッションID: 2D4-GS-2-02

DOI https://doi.org/10.11517/pjsai.JSAI2023.0_2D4GS202

会議情報

主催: 一般社団法人人工知能学会

会議名: 2023年度人工知能学会全国大会（第37回）

回次: 37

開催地: 熊本城ホール＋オンライン

開催日: 2023/06/06 - 2023/06/09

自己対戦型深層強化学習における探索結果の利用

*神子島一弥, 野田五十樹, 小山聡

著者情報

キーワード: 強化学習, 深層学習, 自己対戦

会議録・要旨集フリー

詳細

抄録

我々はAlphaGoZeroやAlphaZeroなどのゲームAIで広く用いられている自己対戦型深層強化学習における訓練データ生成について新しい手法を提案する。一般に、このような自己対戦型の学習では、自己対戦中に生成される探索結果の多くを利用できておらず、現在その活用法の研究はほとんど行われていない。提案手法では、最終的な勝敗報酬と方策を推定することによって得られた探索結果を訓練データに変換する。学習のハイパーパラメータを変化させて実験を行った結果、提案手法は方策の効率的な学習に寄与し、学習の安定性を高めることを示唆する結果が得られた。

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）