日本知能情報ファジィ学会 ファジィ システム シンポジウム 講演論文集
第30回ファジィシステムシンポジウム
セッションID: MD2-3
会議情報

main
状態価値に確率分布を用いた強化学習
*佐藤 亘橘 完太
著者情報
会議録・要旨集 フリー

詳細
抄録
強化学習とは試行錯誤を通じて未知環境における最適行動を獲得する学習手法である.強い非定常性を持つ環境で強化学習を行う場合,学習に膨大な時間がかかってしまう可能性がある.この問題に関してさまざまな研究がされてきた.著者の知るかぎりではこれらの手法は環境変化の認知と環境への対応という2つの部分から構成されているという点で共通している.従来手法ではエージェントに環境変化を認知するセンサーを持たせ,最適行動と探索行動の切り替えを行っていたが,提案手法では確率分布としての状態価値をベイズ更新することにより環境変化時の最適行動と探索行動を確率分布に従って切り替えられるようになる.
著者関連情報
© 2014 日本知能情報ファジィ学会
前の記事 次の記事
feedback
Top