ファジィ制御ルールによる行動決定のための方策の表現と方策勾配法による強化学習とを融合し,各ファジィ制御ルールの重みや各メンバシップ関数の形状をそれぞれ規定する各パラメータを,エピソードあたりの報酬の期待値が極大となるように学習する方式が提案されている.この融合方式は,ファジィ表現に関する自由度が高く,各制御ルールの信頼度に相当するルール重みと各メンバシップ関数の形状とを同じ枠組みの学習法で自動調整できるという特長をもつ.自動車の速度制御問題への適用を通じて,この融合方式がルール重みを適切に学習できることが示されている.ただし,メンバシップ関数については,先験的な知識を基に人間が事前に設計した関数形を与えていた.そこで本論文では,メンバシップ関数をニューラルネットワークで表現してその重みパラメータをこの融合方式において強化学習することを考え,自動車の速度制御問題の事例を対象にその学習則を示す.自動車の速度制御問題へ適用した計算機実験の結果,適切なメンバシップ関数を提案手法によって学習できることを確認した.すなわち,本提案手法は,“長い/短い”,“速い/遅い”などのファジィ表現による概念を自動的に獲得するための一般的手法として適用できる.