人工知能学会全国大会論文集
Online ISSN : 2758-7347
第36回 (2022)
セッションID: 2C5-GS-2-03
会議情報

モデル化誤差に頑健な Max-Min Off-Policy Actor-Critic
*田邊 拓実佐藤 怜福地 一斗佐久間 淳秋本 洋平
著者情報
会議録・要旨集 フリー

詳細
抄録

現実世界で強化学習を用いて方策を学習することは高コストかつ高リスクであるため,シミュレーション環境で学習した方策を現実環境に転移させる試みがしばしば行われている. しかし,シミュレーション環境は現実環境を完全に模倣できるわけではなく,現実環境とのの間にはモデル化誤差が生じる. 本研究では,不確実性パラメータによってモデル化誤差が生じるシミュレーション環境と,不確実性パラメータが存在する空間が既知である,という設定に着目する. 現実環境が不確実性パラメータ空間に含まれている場合に現実環境での性能の下限を保証するために,不確実性パラメータ空間に対する最悪ケース性能の最適化を目指す. 最悪ケース性能に対して最適化された方策を得るために,強化学習の枠組みの中で同時勾配降下法を用いてMaxMin最適化を行うMax-Min Twin Delayed Deep Deterministic Policy Gradient Algorithm (M2TD3) を提案する. MuJoCoを用いた実験により.一部のタスクでM2TD3はいくつかのベースライン手法よりも優れた最悪ケース性能を示す方策の獲得に成功した.

著者関連情報
© 2022 人工知能学会
前の記事 次の記事
feedback
Top