因果強度を用いた強化学習における価値配分手法

小川 絢加; 澤山 熱気; 甲野 佑; 高橋 達二

doi:10.11517/pjsai.JSAI2015.0_1F35in

第29回 (2015)

セッションID: 1F3-5in

DOI https://doi.org/10.11517/pjsai.JSAI2015.0_1F35in

会議情報

主催: 一般社団法人人工知能学会

会議名: 2015年度人工知能学会全国大会（第29回）

回次: 29

開催地: 北海道函館市公立はこだて未来大学

開催日: 2015/05/30 - 2015/06/02

因果強度を用いた強化学習における価値配分手法

*小川絢加, 澤山熱気, 甲野佑, 高橋達二

著者情報

会議録・要旨集フリー

詳細

抄録

強化学習において遅延して与えられる報酬を，それまでの状態行動系列に対して，どのように配分して価値付けるかは大きな問題である．この問題にはTD(λ)のように，その状態への過去の訪問から現在までの時間経過を用いて価値を分配する手法を用いるのが一般的である．本研究では人間の感覚に倣った因果強度の評価手法を用いて，単純な時間経過ではない価値の配分を行う手法を新たに提案し，従来手法との比較を行う．

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）