人工知能学会全国大会論文集
Online ISSN : 2758-7347
第33回 (2019)
セッションID: 2Q5-J-2-01
会議情報

エキスパートが複数の環境で生成した軌跡から報酬を推定するベイジアン逆強化学習
*中田 勇介荒井 幸代
著者情報
会議録・要旨集 フリー

詳細
抄録

強化学習は深層学習の導入によって多くの成果を挙げているが,タスクの目的を適切に反映した報酬の設計を必要とする.この報酬設計を回避する方法に,エキスパートの軌跡から報酬を推定する逆強化学習がある.既存の逆強化学習法の多くは、ある単一の環境で得られた軌跡からエキスパートの報酬を推定する.しかし,複数の環境におけるエキスパートの軌跡が入手可能な場合もある.例えば,自動車の運転の目的を報酬として表現することは困難だが,運転手は特定の目的の下での運転データを複数の状況で生成できる.本研究では,エキスパートが複数の環境で生成した軌跡を用いて報酬を推定する逆強化学習手法を,ベイジアン逆強化学習に基づいて定式化し,その解法を示す.Expected Value Differenceと呼ばれる指標で,提案法と既存のベイジアン逆強化学習を比較した結果,提案法が既存手法と比較して,よりエキスパートに近い報酬を推定したことを確認した.

著者関連情報
© 2019 一般社団法人 人工知能学会
前の記事 次の記事
feedback
Top