主催: 一般社団法人 人工知能学会
会議名: 2018年度人工知能学会全国大会(第32回)
回次: 32
開催地: 鹿児島県鹿児島市 城山ホテル鹿児島
開催日: 2018/06/05 - 2018/06/08
強化学習におけるサンプリングベース直接政策探索では、より高い次元の決定変数が最適値の悪化と学習速度の低下を引き起こす。 また、サンプリングのための確率分布の分散が、最適値と学習速度の両方に影響を及ぼすことを明らかにした。さらに、そこには最適値と学習速度との間のトレードオフが存在することも明らかになった。 本論文では、最適値を改善するためのサンプリング分布の分散に対する操作と, 学習速度を改善するための決定変数の次元削減の2つの手法を提案して、最適値を悪化させずに学習速度を向上させることを実現させた。