人工知能学会全国大会論文集
Online ISSN : 2758-7347
第26回 (2012)
セッションID: 1O2-OS-18-10
会議情報

順序学習に基づく逆強化学習による対話制御
*杉山 弘晃目黒 豊美南 泰浩
著者情報
会議録・要旨集 フリー

詳細
抄録

強化学習において,適切な報酬関数の設定は難しい問題である.この問題に対し,エキスパートの行動列を入力とし,この行動列を再現する報酬関数を推定する逆強化学習が注目されている.従来の逆強化学習では,訓練行動列は全て同一の報酬関数に基づくことを仮定していた.本研究では,異なる報酬関数に基づく行動列から報酬関数を推定する,順序学習に基づく逆強化学習を提案し,シミュレーション実験を通してその有効性を示す.

著者関連情報
© 2012 一般社団法人 人工知能学会
前の記事 次の記事
feedback
Top