動的環境下での頑健な制御を実現する強化学習法

境 健太郎; 荒井 幸代

doi:10.11517/pjsai.JSAI2023.0_2O1GS802

抄録

近年，深層学習の導入による強化学習の性能向上に伴い，ロボットや自動車の制御など連続制御問題を対象とした研究がなされている．それらの研究では，学習する際の時間やコスト，安全上の制約を理由に，実世界のシステムを用いず，シミュレータを用いて学習している．しかし，シミュレータが実世界を完全に再現できないために生じるギャップにより，シミュレータで学習したモデルを実世界で動作させることは困難とされている．このようなシミュレータと実世界とのギャップに対処するための研究は二つに分けられる．一つは，シミュレータと実世界を近づけることでギャップを小さくする研究である．もう一つはシミュレータで学習する際に，あらかじめギャップに対して頑健な方策を学習する研究である．本研究では，パラメータの異なる複数の環境下での強化学習のタスク遂行を目的として，二つ目のアプローチの手法であるドメインランダム化を用いた際の頑健性を検証した．また，既に実世界で運用されている手法としてモデル予測制御を取り上げ，ドメインランダム化により獲得した方策と環境の変化に対する性能を比較した．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）