経験データ重み付けによるDeep Q Networkの高速化

村上 知優; 森山 甲一; 武藤 敦子; 松井 藤五郎; 犬塚 信博

doi:10.11517/pjsai.JSAI2018.0_2P201

第32回 (2018)

セッションID: 2P2-01

DOI https://doi.org/10.11517/pjsai.JSAI2018.0_2P201

会議情報

主催: 一般社団法人人工知能学会

会議名: 2018年度人工知能学会全国大会（第32回）

回次: 32

開催地: 鹿児島県鹿児島市城山ホテル鹿児島

開催日: 2018/06/05 - 2018/06/08

経験データ重み付けによるDeep Q Networkの高速化

*村上知優, 森山甲一, 武藤敦子, 松井藤五郎, 犬塚信博

著者情報

会議録・要旨集フリー

詳細

抄録

Deep Q Network(DQN)は行動価値関数をディープニューラルネットワークによって近似するものであり、人間を上回る行動選択能力を獲得するに至っている。しかし、DQNは学習速度が極めて遅い。DQNはエージェントが観測したデータ郡（経験データ）をメモリ内に保存し、そこから等確率でランダムにサンプリングした経験データを用いて学習を進めていくが、経験データは出現率が異なるため、出現率の高い経験データに対する学習は冗長に行われ、低いものに対する学習はなかなか進まない。そこで、出現率の低い経験データを重要な経験データとして扱い、サンプリングされる確率を操作することで学習効率を高めることができると考えられる。Atari2600のPongで実験した結果、DQNの学習速度を改善することができた。

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）