関節トルク信号への摂動に頑健なOffline-to-Online強化学習

綾部 信吾; 計良 宥志; 川本 一彦

doi:10.11517/pjsai.JSAI2025.0_3Win513

抄録

オフライン強化学習は、環境との相互作用を必要とせず既存のデータセットから学習可能なため、ロボット制御などへの応用が期待されている。一方で、ロボットの関節アクチュエータの故障といった実世界の問題に対する頑健性が求められる。従来の強化学習では学習中に摂動を付加する手法が提案されてきたが、オフライン強化学習では探索範囲の制約や悲観的手法の影響により、摂動を含むデータセットを用いた場合でも頑健性の獲得は困難である。本研究では、事前学習済みの強化学習モデルがわずかなオンラインファインチューニングにより頑健性を獲得できるoffline-to-online強化学習手法を提案する。ファインチューニング時は、強化学習モデルの出力である関節トルク信号に制御部位の故障を模擬した摂動を付加して再学習する。摂動にはランダム摂動と最悪ケースを想定した敵対的摂動を用い、実験にはOpenAI Gymの脚式歩行ロボットモデルを使用する。実験結果は、offline-to-online強化学習によって強化学習モデルが上記摂動への頑健性を獲得できることを示している。

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）