電気関係学会九州支部連合大会講演論文集
平成21年度電気関係学会九州支部連合大会(第62回連合大会)講演論文集
セッションID: 09-1A-09
会議情報

負の報酬を考慮したQ学習
櫻木 敦渕田 孝康KATHY THI AUNG
著者情報
キーワード: 人工知能
会議録・要旨集 フリー

詳細
抄録
強化学習の一つであるQ学習は目標達成時の報酬をもとに学習を行うが,未知の環境にはエージェントの行動を阻害する状態があることも考えられ,正の報酬だけでは対応できない.それは正の報酬の伝播が行われる前にエージェントの行動を阻害する状態に着いた場合には行動の手がかりがなく、障害を避けることができないからである.障害を避けるために負の報酬を与えることは可能であるが,従来のQ学習の更新式では次の状態の最大Q値の選択において,負のQ値は選ばれず伝播しない.そこで更新式に負の報酬の伝播を考慮させることでエージェントの行動を阻害する状態に対応する.
著者関連情報
© 2009 電気関係学会九州支部連合大会委員会
前の記事 次の記事
feedback
Top