主催: 一般社団法人 人工知能学会
会議名: 2019年度人工知能学会全国大会(第33回)
回次: 33
開催地: 新潟県新潟市 朱鷺メッセ
開催日: 2019/06/04 - 2019/06/07
本稿では,強化学習と逆強化学習を組み合わせたエントロピ正則化された模倣学習ERILを提案する.ERILは報酬関数が学習方策のエントロピと学習方策とベースライン方策の間のKullback-Leiblerダイバージェンスで正則化された場合に導出されるソフトベルマン最適方程式を利用する.逆強化学習は二つの方策の密度比を推定する問題に帰着され,ロジスティック回帰を用いた二値分類によって効率的に報酬と状態価値を推定できる.強化学習は方策オフ型の動的方策勾配法などの拡張に相当し,学習方策と推定されたエキスパート方策の間のKLダイバージェンスの最小化問題になる.MuJoCoを用いたシミュレーション環境を用いた実験結果より,提案手法ERILは従来法よりもデータ効率が良いことを示す.