逐次的自然方策勾配推定のための適応的学習率

岩城 諒; 横山 裕樹; 浅田 稔

doi:10.11517/pjsai.JSAI2017.0_2P44in1

第31回 (2017)

セッションID: 2P4-4in1

DOI https://doi.org/10.11517/pjsai.JSAI2017.0_2P44in1

会議情報

主催: 一般社団法人人工知能学会

会議名: 2017年度人工知能学会全国大会（第31回）

回次: 31

開催地: 愛知県名古屋市ウインクあいち

開催日: 2017/05/23 - 2017/05/26

逐次的自然方策勾配推定のための適応的学習率

*岩城諒, 横山裕樹, 浅田稔

著者情報

会議録・要旨集フリー

詳細

抄録

自然方策勾配の逐次推定はTD誤差の線形近似という形式で表現できるが，その安定性は学習率などの設定に対し敏感である．本研究では，パラメータ更新が停留点を越えないことを保証する Online importance weight aware update を，逐次的自然方策勾配法に適用する．理論解析により，従来法の不安定性と提案法の安定性を示す．さらに，数値実験により提案法の頑健さを示す．

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）