ガンマダイバージェンスに基づく準最適な軌跡のための逆強化学習

岸川 大航; 荒井 幸代

doi:10.11517/pjsai.JSAI2023.0_3D1GS201

抄録

逆強化学習(IRL)は，熟練者の行動を記録した軌跡から，その背後に存在する報酬を推定する手法であり，報酬設計の難しいタスクにおける強化学習による熟練者の模倣や，人間や生物の意図を分析するために用いられる．従来のIRL手法は，熟練者の軌跡が完全に最適であることを仮定しているため，最適ではない動作を含む準最適な軌跡の場合，準最適な報酬が推定されてしまう．準最適な軌跡に対するIRL手法はいくつか存在するが，各軌跡に対して最適性を評価したランキングを利用するアプローチが主流である．しかし，これらの手法は，ランキングデータの正確性に学習性能が大きく影響される問題を抱えている．そこで，準最適な軌跡の分布を，最適な軌跡の分布に外れ値が混入したものであるとみなし，外れ値を無視する性質を有するガンマダイバージェンスを用いたIRL手法を提案する．提案手法は熟練者の軌跡と比較対象のデータを分類するIRL手法に適用することが可能であり，従来用いられてきたクロスエントロピーに基づく手法の一般化とみなすことができる．提案手法を計算機実験によって評価する．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）