深層逆強化学習による自動運転の安心走行実現

岸川 大航; 荒井 幸代

doi:10.11517/pjsai.JSAI2019.0_3K4J204

抄録

自動運転の実現に向けては，安全性だけでなく，搭乗者の快適性が必要とされている．本論文ではこれを安心走行と定義する．快適性に対する期待は設計者によって異なるため，安心走行をルールベースのアルゴリズムとして設計することは困難である．これに対して，エージェントの試行錯誤によって最適方策を学習する深層強化学習の導入が検討されている．一般に，深層強化学習における報酬は設計者によって定義されるが，安心走行は定量的な表現が困難であり，設計者による報酬で安心走行を獲得できる保証はない．そこで本論文では，線形可解マルコフ決定過程を利用した深層逆強化学習であるLogReg-IRLを用いて，安心走行の基準を満たす軌跡と満たさない軌跡から状態依存のコストと状態価値を推定し，これらを用いて計算されるシェーピング報酬を用いた学習により安心走行を獲得する手法を提案する．実験では，安心走行の基準をY軸方向の加速度とし，結果として基準を満たす走行を獲得した．また，シェーピング報酬の計算に用いる状態依存のコスト関数の状態入力に対する勾配を計算することで，報酬の計算に影響を与えている状態入力を明らかにすることができた．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）