人工知能学会全国大会論文集
Online ISSN : 2758-7347
第22回 (2008)
セッションID: 2A1-1
会議情報

Q値累積型モンテカルロ法に関する一考察
*植村 渉
著者情報
会議録・要旨集 フリー

詳細
抄録
経験強化型の強化学習法であるProfit Sharingが,マルコフ決定過程の確率的状態遷移に対して適切に学習を進めることができない場合があることを指摘し,モンテカルロ法の評価値の扱い方を基にした新しい学習方法を提案する.
著者関連情報
© 2008 社団法人 人工知能学会
前の記事 次の記事
feedback
Top