モデル化誤差に頑健な Max-Min Off-Policy Actor-Critic

田邊 拓実; 佐藤 怜; 福地 一斗; 佐久間 淳; 秋本 洋平

doi:10.11517/pjsai.JSAI2022.0_2C5GS203

抄録

現実世界で強化学習を用いて方策を学習することは高コストかつ高リスクであるため，シミュレーション環境で学習した方策を現実環境に転移させる試みがしばしば行われている．しかし，シミュレーション環境は現実環境を完全に模倣できるわけではなく，現実環境とのの間にはモデル化誤差が生じる．本研究では，不確実性パラメータによってモデル化誤差が生じるシミュレーション環境と，不確実性パラメータが存在する空間が既知である，という設定に着目する．現実環境が不確実性パラメータ空間に含まれている場合に現実環境での性能の下限を保証するために，不確実性パラメータ空間に対する最悪ケース性能の最適化を目指す．最悪ケース性能に対して最適化された方策を得るために，強化学習の枠組みの中で同時勾配降下法を用いてMaxMin最適化を行うMax-Min Twin Delayed Deep Deterministic Policy Gradient Algorithm (M2TD3) を提案する． MuJoCoを用いた実験により．一部のタスクでM2TD3はいくつかのベースライン手法よりも優れた最悪ケース性能を示す方策の獲得に成功した．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）