システム制御情報学会 研究発表講演会講演論文集
第47回システム制御情報学会研究発表講演会
会議情報
Temporal Difference学習による収益系列の予測符号化
岩田 一貴池田 和司酒井 英昭
著者情報
会議録・要旨集 フリー

p. 6013

詳細
抄録
We regard the sequence of returns as outputs from a parametric compound source. Utilizing the fact that the coding rate of the source shows the amount of information about the return, we describe l-learning algorithms based on the predictive coding idea for estimating an expected information gain concerning future information. Using the information gain, we propose the ratio w of return loss to information gain as a new criterion to be used in probabilistic action selection strategies. In experimental results, we found our w-based strategy performs well compared with the conventional Q-based strategy.
著者関連情報
© 2003 システム制御情報学会
前の記事 次の記事
feedback
Top