自動制御連合講演会講演論文集
第53回自動制御連合講演会
セッションID: 504
会議情報

ニューロ・ファジー・強化学習
マルチエージェント連続タスクへの改良型罰回避政策形成アルゴリズムの適用とサッカーロボットを用いた実験による評価
*伊藤 昌樹宮崎 和光小林 博明
著者情報
会議録・要旨集 フリー

詳細
抄録
本研究では, 著者らが提案する「改良型罰回避政策形成アルゴリズム」を マルチエージェント系の連続タスクである「Keepaway task」に適用し, シミュレーションにより最適な報酬割引率・罰ルール度閾値の選定を行う. その後,シミュレーションで最も学習効果の見られた報酬割引率・罰ルール度閾値を用いた実機実験を行うことで,実環境での学習性能を検証する。
著者関連情報
© 2010 日本機械学会
前の記事 次の記事
feedback
Top