順序学習に基づく逆強化学習による対話制御

杉山 弘晃; 目黒 豊美; 南 泰浩

doi:10.11517/pjsai.JSAI2012.0_1O2OS1810

第26回 (2012)

セッションID: 1O2-OS-18-10

DOI https://doi.org/10.11517/pjsai.JSAI2012.0_1O2OS1810

会議情報

主催: 社団法人人工知能学会

会議名: 2012年度人工知能学会全国大会（第26回）

回次: 26

開催地: 山口県山口市山口県教育会館等

開催日: 2012/06/12 - 2012/06/15

順序学習に基づく逆強化学習による対話制御

*杉山弘晃, 目黒豊美, 南泰浩

著者情報

会議録・要旨集フリー

詳細

抄録

強化学習において，適切な報酬関数の設定は難しい問題である．この問題に対し，エキスパートの行動列を入力とし，この行動列を再現する報酬関数を推定する逆強化学習が注目されている．従来の逆強化学習では，訓練行動列は全て同一の報酬関数に基づくことを仮定していた．本研究では，異なる報酬関数に基づく行動列から報酬関数を推定する，順序学習に基づく逆強化学習を提案し，シミュレーション実験を通してその有効性を示す．

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）