日本知能情報ファジィ学会 ファジィ システム シンポジウム 講演論文集
第30回ファジィシステムシンポジウム
セッションID: MD2-2
会議情報

main
強化学習におけるUCB行動選択手法の効果
*斉藤 晃貴野津 亮本多 克宏
著者情報
会議録・要旨集 フリー

詳細
抄録
N本腕バンディット問題などで用いられる行動選択手法の1つとして,UCB手法が提案されている. この手法は,価値推定値の信頼区間の上限の比較によって行動選択を行うことで,一般的によく用いられるε-greedy手法などよりも高い性能を発揮する. 本論文では,連続空間における経路探索問題を題材として,部分的にしか環境を観測することができない部分観測マルコフ決定過程における強化学習においてもこの手法が高い性能を示すかを従来手法と比較しながら検討する.
著者関連情報
© 2014 日本知能情報ファジィ学会
前の記事 次の記事
feedback
Top