逆強化学習による報酬関数推定における目的関数の影響の考察

北里 勇樹; 荒井 幸代

doi:10.11517/pjsai.JSAI2014.0_3O16in

第28回 (2014)

セッションID: 3O1-6in

DOI https://doi.org/10.11517/pjsai.JSAI2014.0_3O16in

会議情報

主催: 一般社団法人人工知能学会

会議名: 2014年度人工知能学会全国大会（第28回）

回次: 28

開催地: 愛媛県松山市ひめぎんホール

開催日: 2014/05/12 - 2014/05/15

逆強化学習による報酬関数推定における目的関数の影響の考察

*北里勇樹, 荒井幸代

著者情報

会議録・要旨集フリー

詳細

抄録

逆強化学習は，方策を所与として報酬関数を推定する枠組であり，報酬設定が困難な問題に対して期待されている．逆強化学習の概念が最初に示されたRussellらによる方法では，各状態の最適行動と，それ以外の行動のQ値の差を全状態に対して算出し，この合計を最大化する問題として定式化されている．本論文では，各状態毎の差を最大化する多目的最適化問題とした解法を示し，得られた報酬関数を評価する．

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）