人工知能学会全国大会論文集
Online ISSN : 2758-7347
第32回 (2018)
セッションID: 3Pin1-11
会議情報

エントロピー正則化付方策改善のための目的関数の補正
*岩城 諒浅田 稔
著者情報
会議録・要旨集 フリー

詳細
抄録

強化学習は,未知の環境と試行錯誤的に相互作用しながら,意思決定則である方策を最適化することを目的とする.近年,エントロピーもしくは双対エントロピーによって目的関数を正則化する学習則が数多く研究されているが,(双対)エントロピーによる正則化を導入すると,目的関数と最適方策が元となるマルコフ決定過程と異なってしまう.本研究では,エントロピーの正則化を利用した方策オフ型の学習則の一つである Path Consistency Learning (PCL) とその派生である trust-PCLに着目し, これらの学習則を利用して元となるマルコフ決定過程の最適方策を求める手法を提案する.

著者関連情報
© 2018 一般社団法人 人工知能学会
前の記事 次の記事
feedback
Top