主催: 一般社団法人 人工知能学会
会議名: 2023年度人工知能学会全国大会(第37回)
回次: 37
開催地: 熊本城ホール+オンライン
開催日: 2023/06/06 - 2023/06/09
逆強化学習(IRL)は,熟練者の行動を記録した軌跡から,その背後に存在する報酬を推定する手法であり,報酬設計の難しいタスクにおける強化学習による熟練者の模倣や,人間や生物の意図を分析するために用いられる.従来のIRL手法は,熟練者の軌跡が完全に最適であることを仮定しているため,最適ではない動作を含む準最適な軌跡の場合,準最適な報酬が推定されてしまう.準最適な軌跡に対するIRL手法はいくつか存在するが,各軌跡に対して最適性を評価したランキングを利用するアプローチが主流である.しかし,これらの手法は,ランキングデータの正確性に学習性能が大きく影響される問題を抱えている.そこで,準最適な軌跡の分布を,最適な軌跡の分布に外れ値が混入したものであるとみなし,外れ値を無視する性質を有するガンマダイバージェンスを用いたIRL手法を提案する.提案手法は熟練者の軌跡と比較対象のデータを分類するIRL手法に適用することが可能であり,従来用いられてきたクロスエントロピーに基づく手法の一般化とみなすことができる.提案手法を計算機実験によって評価する.