人工知能学会全国大会論文集
Online ISSN : 2758-7347
第32回 (2018)
セッションID: 1Z3-04
会議情報

満足化を通じた最適な自律的探索
甲野 佑*高橋 達二
著者情報
会議録・要旨集 フリー

詳細
抄録

深層学習はその優れた関数近似能力により巨大な行動状態空間での強化学習を可能にしたが,探索と知識利用のトレードオフはより深刻になる.それに対し,乱数を利用した探索によるトレードオフに対処するためのヒューリスティックがいくつか提案されている.しかし確率的探索手法はパラメータ調整を困難にし,深層強化学習アルゴリズムの性能における巨大な分散の問題を増幅する.そこで我々は人間の不確実性を評価に対する意思決定傾向の側面を有する認知的満足価値関数 (RS) に基づく決定論的行動選択アルゴリズムに着目する.本研究では新たに満足化基準に対する潜在的な選択比率との関係を明らかにし,最適な探索を可能にする方法を提案する.提案アルゴリズムは多腕バンディット問題において最適な探索性能を示し,従来とは異なる視点での強化学習アルゴリズムのクラスに繋がる示唆を得た.

著者関連情報
© 2018 一般社団法人 人工知能学会
前の記事 次の記事
feedback
Top