人工知能学会全国大会論文集
Online ISSN : 2758-7347
第36回 (2022)
セッションID: 2C5-GS-2-04
会議情報

DQNに基づく連続観測空間における安全な強化学習
*大橋 宥斗松井 藤五郎武藤 敦子森山 甲一犬塚 信博
著者情報
会議録・要旨集 フリー

詳細
抄録

本論文では,DQNに基づいて成功確率に基づく安全な強化学習を行う方法を提案する.近年,被災地や宇宙など人が直接行けない危険な環境でロボットが活躍している.このような環境ではいつ外部からの影響でロボットが危険な状態に陥るかが予測できないため,ロボットが自律的に危険回避行動を学習することが求められる.強化学習とは試行錯誤に基づきより良い行動を学習する機械学習の手法であり,その中でも危険回避行動を学習することに着目した安全な強化学習の手法の一つとして高次元連続観測空間における安全な強化学習(HDEQ)という手法が提案されている.しかし,この手法では現実で取り組みたいロボットなどの問題の観測を扱う場合,利用しているVAEネットワークの学習がうまくいかず,学習することができない.そこで我々はHDEQと異なる方法で連続観測空間を扱うことを考え,ニューラルネットワークを用いることで観測の次元を減らすことなく連続観測空間で学習が行えるDQNに基づく手法を提案する.また,安全な強化学習のベンチマーク問題であるSafety Gymにおいてその効果を確認する.

著者関連情報
© 2022 人工知能学会
前の記事 次の記事
feedback
Top