人工知能学会全国大会論文集
Online ISSN : 2758-7347
第33回 (2019)
セッションID: 1I3-J-2-03
会議情報

エントロピ正則された強化学習を用いた模倣学習
*内部 英治
著者情報
会議録・要旨集 フリー

詳細
抄録

本稿では,強化学習と逆強化学習を組み合わせたエントロピ正則化された模倣学習ERILを提案する.ERILは報酬関数が学習方策のエントロピと学習方策とベースライン方策の間のKullback-Leiblerダイバージェンスで正則化された場合に導出されるソフトベルマン最適方程式を利用する.逆強化学習は二つの方策の密度比を推定する問題に帰着され,ロジスティック回帰を用いた二値分類によって効率的に報酬と状態価値を推定できる.強化学習は方策オフ型の動的方策勾配法などの拡張に相当し,学習方策と推定されたエキスパート方策の間のKLダイバージェンスの最小化問題になる.MuJoCoを用いたシミュレーション環境を用いた実験結果より,提案手法ERILは従来法よりもデータ効率が良いことを示す.

著者関連情報
© 2019 一般社団法人 人工知能学会
前の記事 次の記事
feedback
Top