主催: 一般社団法人 人工知能学会
会議名: 2025年度人工知能学会全国大会(第39回)
回次: 39
開催地: 大阪国際会議場+オンライン
開催日: 2025/05/27 - 2025/05/30
オフライン強化学習は、環境との相互作用を必要とせず既存のデータセットから学習可能なため、ロボット制御などへの応用が期待されている。一方で、ロボットの関節アクチュエータの故障といった実世界の問題に対する頑健性が求められる。従来の強化学習では学習中に摂動を付加する手法が提案されてきたが、オフライン強化学習では探索範囲の制約や悲観的手法の影響により、摂動を含むデータセットを用いた場合でも頑健性の獲得は困難である。本研究では、事前学習済みの強化学習モデルがわずかなオンラインファインチューニングにより頑健性を獲得できるoffline-to-online強化学習手法を提案する。ファインチューニング時は、強化学習モデルの出力である関節トルク信号に制御部位の故障を模擬した摂動を付加して再学習する。摂動にはランダム摂動と最悪ケースを想定した敵対的摂動を用い、実験にはOpenAI Gymの脚式歩行ロボットモデルを使用する。実験結果は、offline-to-online強化学習によって強化学習モデルが上記摂動への頑健性を獲得できることを示している。