人工知能学会全国大会論文集
Online ISSN : 2758-7347
第32回 (2018)
セッションID: 3Pin1-05
会議情報

線形可解マルコフ決定過程のためのバッチ強化学習
*西 智樹大滝 啓介吉村 貴克
著者情報
会議録・要旨集 フリー

詳細
抄録

線形可解マルコフ決定過程(L-MDP)は効率的に政策を学習することができるマルコフ決定過程のサブクラスの一つである.これまでL-MDPのための離散行動空間におけるバッチ強化学習は提案されておらず,交通信号機制御などの行動が離散的に表現される問題に対して適用することができなかった.そこで我々は予め収集したデータから状態価値関数と次状態における状態価値の予測モデルの学習を通して,より良い政策を探索する離散行動空間におけるL-MDPのためのバッチ強化学習を提案する.我々はよく知られた交通シミュレータであるSUMOを用いて1交差点での交通信号機制御により提案法の評価を行った.実験結果から提案法は予め収集したデータのみからQ学習に比べ効率的に政策を学習することができることが分かった.

著者関連情報
© 2018 一般社団法人 人工知能学会
前の記事 次の記事
feedback
Top