2014 年 26 巻 3 号 p. 647-657
典型的なファジィ強化学習アルゴリズムはマルコフ決定過程(MDP)を前提とした価値関数ベースのアプローチを採用し,ファジィルールの後件部に定数や一次関数を用いる場合が多い.一方,方策勾配法は状態や行動の価値関数を計算することなく,方策を直接設計し,その方策中のパラメータを学習する強化学習法である.この方策の表現としてファジィ制御ルールを用いる方策勾配法が提案されている.そこでは,ファジィ制御ルールの前/後件部におけるメンバシップ関数とルール重みを報酬の期待値が極大となるように学習することができる.本論文ではこの学習方式をロボットの行動決定問題へ適用することを試みた.具体的な事例として,ロボットサッカーの競技会であるRoboCup小型リーグの試合において,ボールを保持したときのプレーヤロボットの行動決定問題へ適用した.学習実験の結果,30シーンのうち25シーンにおいて人間の行動決定と一致する方策を獲得することができた.