主催: 一般社団法人 人工知能学会
会議名: 2017年度人工知能学会全国大会(第31回)
回次: 31
開催地: 愛知県名古屋市 ウインクあいち
開催日: 2017/05/23 - 2017/05/26
Actor-critic法や方策勾配法は行動や制御値として連続値を生成する方策の獲得を得意とするが, その方策空間は正規分布などに限定されることが多い. 本研究では,確率分布をパラメトリックに表現する代わりに,既知のノイズ分布からの変数変換によって間接的に表現し,ノンパラメトリックな確率的方策を獲得する強化学習手法を提案する.