ファジィ制御ルールによる行動決定のための方策の表現と方策勾配法による強化学習とを融合し,ファジィ制御ルールにおけるルール重みをエピソードあたりの報酬の期待値が極大となるように学習する方式が提案されている.この融合方式が自動車の速度制御の問題へ適用された研究例では,得られた結果の中に良好な解が見つかった一方,速度の望ましくない変動を生じる解も多く含まれていた.一般に,出力値に急な時間変化や振動をもたらす方策は望ましくなく,時間的に滑らかな出力値を与える方策が望ましい事例は多数考えられる.そこで本研究では,学習結果における出力値の急な変動を抑制するための改善策として,重心モデルによる非ファジィ化と時間に関する滑らか拘束項とを導入した目的関数を提案し,この融合方式に関してその場合の学習則を示す.さらに,報酬の与え方による出力値の変動に対する影響についても検討する.自動車の速度制御問題への適用実験の結果,提案した改善法について,出力値の望ましくない時間変動を抑制する効果があることを確認した.報酬関数については,設計の仕方によって学習の結果に悪影響が出る場合のあることを確認した.