エキスパートが複数の環境で生成した軌跡から報酬を推定するベイジアン逆強化学習

中田 勇介; 荒井 幸代

doi:10.11517/pjsai.JSAI2019.0_2Q5J201

抄録

強化学習は深層学習の導入によって多くの成果を挙げているが，タスクの目的を適切に反映した報酬の設計を必要とする．この報酬設計を回避する方法に，エキスパートの軌跡から報酬を推定する逆強化学習がある．既存の逆強化学習法の多くは、ある単一の環境で得られた軌跡からエキスパートの報酬を推定する．しかし，複数の環境におけるエキスパートの軌跡が入手可能な場合もある．例えば，自動車の運転の目的を報酬として表現することは困難だが，運転手は特定の目的の下での運転データを複数の状況で生成できる．本研究では，エキスパートが複数の環境で生成した軌跡を用いて報酬を推定する逆強化学習手法を，ベイジアン逆強化学習に基づいて定式化し，その解法を示す．Expected Value Differenceと呼ばれる指標で，提案法と既存のベイジアン逆強化学習を比較した結果，提案法が既存手法と比較して，よりエキスパートに近い報酬を推定したことを確認した．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）