人工知能学会全国大会論文集
Online ISSN : 2758-7347
第32回 (2018)
セッションID: 2D4-02
会議情報

様々な学習戦略と学習環境におけるHybrid Reward Architectureの性能の評価
*藤村 悠太朗金子 知適
著者情報
会議録・要旨集 フリー

詳細
抄録

リアルタイムで迅速な意思決定をする必要があるゲームに関する研究が注目されている. 強化学習の手法であるDeep Q-Network (DQN) という手法によって,Atari 2600のゲームの一部で人間より高いスコアを記録したが,Ms. Pacmanなどのゲームでは人間のプレイヤのスコアに達することができなかった. HRAは,Ms. Pacmanのような非常に大きな状態空間のゲームに対しても学習を可能にし,人間のプレイヤを上回るスコアを達成した. 本研究では,より難しい性質を持ったゲームにもHRAの手法を適用できるかを調査するため,HRAによる分割を用いた学習が適するゲーム環境をいくつか作成し,DQNとHRAで性能の比較と考察を行った. その結果,HRAはランダム方策での訓練と相性が良く,DQNよりも優れる学習効率と性能を発揮するが, ランダム方策で報酬を得ることが困難なゲーム環境においては,ε-greedy方策やDQNで学習を行ったときの行動を訓練例とするといった手法では,学習が困難であることを示した.

著者関連情報
© 2018 一般社団法人 人工知能学会
前の記事 次の記事
feedback
Top