DQNに基づく連続観測空間における安全な強化学習

大橋 宥斗; 松井 藤五郎; 武藤 敦子; 森山 甲一; 犬塚 信博

doi:10.11517/pjsai.JSAI2022.0_2C5GS204

抄録

本論文では，DQNに基づいて成功確率に基づく安全な強化学習を行う方法を提案する．近年，被災地や宇宙など人が直接行けない危険な環境でロボットが活躍している．このような環境ではいつ外部からの影響でロボットが危険な状態に陥るかが予測できないため，ロボットが自律的に危険回避行動を学習することが求められる．強化学習とは試行錯誤に基づきより良い行動を学習する機械学習の手法であり，その中でも危険回避行動を学習することに着目した安全な強化学習の手法の一つとして高次元連続観測空間における安全な強化学習(HDEQ)という手法が提案されている．しかし，この手法では現実で取り組みたいロボットなどの問題の観測を扱う場合，利用しているVAEネットワークの学習がうまくいかず，学習することができない．そこで我々はHDEQと異なる方法で連続観測空間を扱うことを考え，ニューラルネットワークを用いることで観測の次元を減らすことなく連続観測空間で学習が行えるDQNに基づく手法を提案する．また，安全な強化学習のベンチマーク問題であるSafety Gymにおいてその効果を確認する．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）