主催: 一般社団法人 人工知能学会
会議名: 2015年度人工知能学会全国大会(第29回)
回次: 29
開催地: 北海道函館市 公立はこだて未来大学
開催日: 2015/05/30 - 2015/06/02
強化学習において遅延して与えられる報酬を,それまでの状態行動系列に対して,どのように配分して価値付けるかは大きな問題である.この問題にはTD(λ)のように,その状態への過去の訪問から現在までの時間経過を用いて価値を分配する手法を用いるのが一般的である.本研究では人間の感覚に倣った因果強度の評価手法を用いて,単純な時間経過ではない価値の配分を行う手法を新たに提案し,従来手法との比較を行う.