系列生成器の訓練のためのエキスパート系列に基づく報酬関数の学習方法の提案

冨山 翔司; 岩澤 有祐; 松尾 豊

doi:10.11517/pjsai.JSAI2018.0_1Z103

第32回 (2018)

セッションID: 1Z1-03

DOI https://doi.org/10.11517/pjsai.JSAI2018.0_1Z103

会議情報

主催: 一般社団法人人工知能学会

会議名: 2018年度人工知能学会全国大会（第32回）

回次: 32

開催地: 鹿児島県鹿児島市城山ホテル鹿児島

開催日: 2018/06/05 - 2018/06/08

系列生成器の訓練のためのエキスパート系列に基づく報酬関数の学習方法の提案

*冨山翔司, 岩澤有祐, 松尾豊

著者情報

会議録・要旨集フリー

詳細

抄録

系列生成器の訓練方法として，敵対的学習と方策勾配法を組み合わせた手法が効果的であることが知られている．この方法では，敵対的学習の識別器を報酬関数としてみる．本論文では，報酬関数を敵対的学習を用いずに学習する，expert-based reward function trainingを提案する．提案手法によって学習された系列生成器が，SeqGANやRankGANといったベースラインに比べて良い性能であることを確かめた．

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）