人工知能学会全国大会論文集
Online ISSN : 2758-7347
第29回 (2015)
セッションID: 1F3-5in
会議情報

因果強度を用いた強化学習における価値配分手法
*小川 絢加澤山 熱気甲野 佑高橋 達二
著者情報
会議録・要旨集 フリー

詳細
抄録

強化学習において遅延して与えられる報酬を,それまでの状態行動系列に対して,どのように配分して価値付けるかは大きな問題である.この問題にはTD(λ)のように,その状態への過去の訪問から現在までの時間経過を用いて価値を分配する手法を用いるのが一般的である.本研究では人間の感覚に倣った因果強度の評価手法を用いて,単純な時間経過ではない価値の配分を行う手法を新たに提案し,従来手法との比較を行う.

著者関連情報
© 2015 一般社団法人 人工知能学会
前の記事 次の記事
feedback
Top