主催: 一般社団法人 人工知能学会
会議名: 2022年度人工知能学会全国大会(第36回)
回次: 36
開催地: 京都国際会館+オンライン
開催日: 2022/06/14 - 2022/06/17
現実世界で強化学習を用いて方策を学習することは高コストかつ高リスクであるため,シミュレーション環境で学習した方策を現実環境に転移させる試みがしばしば行われている. しかし,シミュレーション環境は現実環境を完全に模倣できるわけではなく,現実環境とのの間にはモデル化誤差が生じる. 本研究では,不確実性パラメータによってモデル化誤差が生じるシミュレーション環境と,不確実性パラメータが存在する空間が既知である,という設定に着目する. 現実環境が不確実性パラメータ空間に含まれている場合に現実環境での性能の下限を保証するために,不確実性パラメータ空間に対する最悪ケース性能の最適化を目指す. 最悪ケース性能に対して最適化された方策を得るために,強化学習の枠組みの中で同時勾配降下法を用いてMaxMin最適化を行うMax-Min Twin Delayed Deep Deterministic Policy Gradient Algorithm (M2TD3) を提案する. MuJoCoを用いた実験により.一部のタスクでM2TD3はいくつかのベースライン手法よりも優れた最悪ケース性能を示す方策の獲得に成功した.