物理パラメータのランダム化による耐故障ロボットのための強化学習

岡本 航昇; 川本 一彦

doi:10.11517/pjsai.JSAI2020.0_3Rin402

抄録

強化学習では，コスト面や安全性の理由から，シミュレーション環境で方策を学習し，現実世界に適用することが一般的である．しかし，現実世界の外乱や故障によってシミュレーション環境とテスト環境のギャップが生まれるため，学習された方策のみでは適応できないことが多い．そのようなギャップを埋めるために，様々なシナリオに適応できる方策が必要である．本稿では，故障に対してロバストな方策獲得のための強化学習手法を提案する．提案手法では，故障をロボットの物理パラメータの調整によって表現する．学習時に物理パラメータをランダム化することで様々な故障の下での強化学習を実現している．評価実験では，故障が発生するシミュレーション環境下での4足歩行タスクに対して，提案手法によるロボットが通常のロボットよりも高い平均報酬を獲得したことを示す．さらに故障がない環境下でも評価したところ，同様に提案手法によるロボットはより高い平均報酬を獲得することができた．

著者関連情報

お気に入り & アラート

閲覧履歴

サケ科魚類から分離された新しいウイルス

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）