確率変数変換の学習によるノンパラメトリックな確率的方策の獲得

横山 裕樹; 岡田 浩之

doi:10.11517/pjsai.JSAI2017.0_4D1OS37c2

第31回 (2017)

セッションID: 4D1-OS-37c-2

DOI https://doi.org/10.11517/pjsai.JSAI2017.0_4D1OS37c2

会議情報

主催: 一般社団法人人工知能学会

会議名: 2017年度人工知能学会全国大会（第31回）

回次: 31

開催地: 愛知県名古屋市ウインクあいち

開催日: 2017/05/23 - 2017/05/26

確率変数変換の学習によるノンパラメトリックな確率的方策の獲得

*横山裕樹, 岡田浩之

著者情報

会議録・要旨集フリー

詳細

抄録

Actor-critic法や方策勾配法は行動や制御値として連続値を生成する方策の獲得を得意とするが，その方策空間は正規分布などに限定されることが多い．本研究では，確率分布をパラメトリックに表現する代わりに，既知のノイズ分布からの変数変換によって間接的に表現し，ノンパラメトリックな確率的方策を獲得する強化学習手法を提案する．

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）