エントロピー正則化付方策改善のための目的関数の補正

岩城 諒; 浅田 稔

doi:10.11517/pjsai.JSAI2018.0_3Pin111

第32回 (2018)

セッションID: 3Pin1-11

DOI https://doi.org/10.11517/pjsai.JSAI2018.0_3Pin111

会議情報

主催: 一般社団法人人工知能学会

会議名: 2018年度人工知能学会全国大会（第32回）

回次: 32

開催地: 鹿児島県鹿児島市城山ホテル鹿児島

開催日: 2018/06/05 - 2018/06/08

エントロピー正則化付方策改善のための目的関数の補正

*岩城諒, 浅田稔

著者情報

会議録・要旨集フリー

詳細

抄録

強化学習は，未知の環境と試行錯誤的に相互作用しながら，意思決定則である方策を最適化することを目的とする．近年，エントロピーもしくは双対エントロピーによって目的関数を正則化する学習則が数多く研究されているが，（双対）エントロピーによる正則化を導入すると，目的関数と最適方策が元となるマルコフ決定過程と異なってしまう．本研究では，エントロピーの正則化を利用した方策オフ型の学習則の一つである Path Consistency Learning (PCL) とその派生である trust-PCLに着目し，これらの学習則を利用して元となるマルコフ決定過程の最適方策を求める手法を提案する.

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）