負の報酬を考慮したQ学習

櫻木 敦; 渕田 孝康; KATHY THI AUNG

doi:10.11527/jceeek.2009.0.396.0

平成21年度電気関係学会九州支部連合大会（第62回連合大会）講演論文集

セッションID: 09-1A-09

DOI https://doi.org/10.11527/jceeek.2009.0.396.0

会議情報

主催: 電気関係学会九州支部連合会

負の報酬を考慮したQ学習

櫻木敦, 渕田孝康, KATHY THI AUNG

著者情報

キーワード: 人工知能

会議録・要旨集フリー

詳細

抄録

強化学習の一つであるQ学習は目標達成時の報酬をもとに学習を行うが，未知の環境にはエージェントの行動を阻害する状態があることも考えられ，正の報酬だけでは対応できない．それは正の報酬の伝播が行われる前にエージェントの行動を阻害する状態に着いた場合には行動の手がかりがなく、障害を避けることができないからである．障害を避けるために負の報酬を与えることは可能であるが，従来のQ学習の更新式では次の状態の最大Q値の選択において，負のQ値は選ばれず伝播しない．そこで更新式に負の報酬の伝播を考慮させることでエージェントの行動を阻害する状態に対応する．

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）