ファジイ制御ルールにより表現された方策を持つ方策勾配法： RoboCup小型リーグにおける行動決定

杉本 将也; 五十嵐 治一; 石原 聖司; 田中 一基

doi:10.3156/jsoft.26.647

抄録

典型的なファジィ強化学習アルゴリズムはマルコフ決定過程（MDP）を前提とした価値関数ベースのアプローチを採用し，ファジィルールの後件部に定数や一次関数を用いる場合が多い．一方，方策勾配法は状態や行動の価値関数を計算することなく，方策を直接設計し，その方策中のパラメータを学習する強化学習法である．この方策の表現としてファジィ制御ルールを用いる方策勾配法が提案されている．そこでは，ファジィ制御ルールの前／後件部におけるメンバシップ関数とルール重みを報酬の期待値が極大となるように学習することができる．本論文ではこの学習方式をロボットの行動決定問題へ適用することを試みた．具体的な事例として，ロボットサッカーの競技会であるRoboCup小型リーグの試合において，ボールを保持したときのプレーヤロボットの行動決定問題へ適用した．学習実験の結果，30シーンのうち25シーンにおいて人間の行動決定と一致する方策を獲得することができた．

著者関連情報

お気に入り & アラート

閲覧履歴

前身誌

日本ファジィ学会誌

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）