抄録
強化学習で用いられる確率的方策は各時刻で行動を確率的に決定するため,生成される軌道が滑らかでなく実ロボットの行動学習には適さない.また,方策の改善に用いる方策勾配の推定値が大きな分散を持ち,学習過程を安定化させるためには一つの確率的方策を複数回評価する必要がある.このため,ロボット制御に適した決定論的方策をPolicy Gradients with Parameter-based Exploration(PGPE)は状態行動空間で探査するのではなく,方策パラメータ空間で探査するように強化学習の目的を再構成することで,決定論的方策を学習することを可能にした.しかしPGPEは勾配法に基づく方法であり,学習率の調整を必要とした.本解説では学習率の調節の必要のない,EMアルゴリズムを用いた決定論的方策を学習するための手法を説明する.スマートフォンをベースにした倒立二輪型移動ロボットを用いた複数の実験において,決定論的方策を用いることの利点や提案手法が実ロボットの学習に有効であることを述べる.