抄録
強化学習の一つであるQ学習は目標達成時の報酬をもとに学習を行うが,未知の環境にはエージェントの行動を阻害する状態があることも考えられ,正の報酬だけでは対応できない.それは正の報酬の伝播が行われる前にエージェントの行動を阻害する状態に着いた場合には行動の手がかりがなく、障害を避けることができないからである.障害を避けるために負の報酬を与えることは可能であるが,従来のQ学習の更新式では次の状態の最大Q値の選択において,負のQ値は選ばれず伝播しない.そこで更新式に負の報酬の伝播を考慮させることでエージェントの行動を阻害する状態に対応する.