様々な学習戦略と学習環境におけるHybrid Reward Architectureの性能の評価

藤村 悠太朗; 金子 知適

doi:10.11517/pjsai.JSAI2018.0_2D402

抄録

リアルタイムで迅速な意思決定をする必要があるゲームに関する研究が注目されている．強化学習の手法であるDeep Q-Network (DQN) という手法によって，Atari 2600のゲームの一部で人間より高いスコアを記録したが，Ms. Pacmanなどのゲームでは人間のプレイヤのスコアに達することができなかった． HRAは，Ms. Pacmanのような非常に大きな状態空間のゲームに対しても学習を可能にし，人間のプレイヤを上回るスコアを達成した．本研究では，より難しい性質を持ったゲームにもHRAの手法を適用できるかを調査するため，HRAによる分割を用いた学習が適するゲーム環境をいくつか作成し，DQNとHRAで性能の比較と考察を行った．その結果，HRAはランダム方策での訓練と相性が良く，DQNよりも優れる学習効率と性能を発揮するが，ランダム方策で報酬を得ることが困難なゲーム環境においては，ε-greedy方策やDQNで学習を行ったときの行動を訓練例とするといった手法では，学習が困難であることを示した．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）