主催: 一般社団法人 人工知能学会
会議名: 第34回全国大会(2020)
回次: 34
開催地: Online
開催日: 2020/06/09 - 2020/06/12
スパースな報酬は、強化学習(RL)における永続的な問題でした。多くの場合、報酬関数を手動で指定または形成する必要があります。これにより、通常、長いタスク期間と高いアクション次元を備えている現実世界のタスクにRLの適用が大幅に制限され、報酬関数の手動設定が非常に困難になります。この作業では、準最適なデモンストレーションから報酬をシミュレートして推論するベイズ逆強化学習を使用することにより、スパース報酬問題を克服することを提案します。 7-DOFCrane-X7ロボットアームを適応制御するために、ROS環境で表示されるのと同じ周波数で、HTV-Viveインターフェイステクニックとともに、深い決定論的ポリシーグラジエントと後知恵体験リプレイアルゴリズムを使用します。提案手法は、さまざまなフェッチタスクを解決でき、デモンストレーターポリシーよりも優れたポリシーを学習できることを示します。