「待った」の概念を取り入れた効率的なオセロの学習

成田 穂; 木村 大毅

doi:10.11517/pjsai.JSAI2019.0_4O3J701

第33回 (2019)

セッションID: 4O3-J-7-01

DOI https://doi.org/10.11517/pjsai.JSAI2019.0_4O3J701

会議情報

主催: 一般社団法人人工知能学会

会議名: 2019年度人工知能学会全国大会（第33回）

回次: 33

開催地: 新潟県新潟市朱鷺メッセ

開催日: 2019/06/04 - 2019/06/07

「待った」の概念を取り入れた効率的なオセロの学習

*成田穂, 木村大毅

著者情報

キーワード: ゲームAI, モンテカルロ木探索, 深層強化学習

会議録・要旨集フリー

詳細

抄録

AlphaZeroに代表されるようなモンテカルロ木探索と深層強化学習の組み合わせにより、素晴らしい高い性能が達成されているが、その計算コストは高く、また長い計算時間がかかるという問題点がある。本研究では、MCTSをベースとして、「失敗度」の概念を取り入れたアルゴリズムを提案する。失敗度は効率的な探索を可能にし、学習時間を削減する。これにより、エージェントは勝敗を分ける重要な局面を重点的に探索することが可能になる。我々の手法は最初の数イテレーションでAlphaZeroを超える性能を示した。

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）