抄録
近年,離散状態しか取り扱えないQ-learning を拡張し,連続状態を扱えるようにしたファジィ Q-learningに関する研究が行なわれている.また,初期のQ表を与えておき,新しい状態と行動の組を動的に追加していくDynamic Fuzzy Q-Learning (DFQL) も提案されている.我々は,状態のファジィ集合の調整と状態と行動の組の削除機能を持つ,より動的で柔軟なファジィQ-learningを提案する.提案法では,Q値の学習を行ないながら状態の評価値であるV値のTD誤差を用いて状態のファジィ集合の中心値と幅の調整を行なう.そして,ファジィ集合とV値に忘却学習を適用することで不要なファジィ集合と不要な状態と行動の組を削除する.この方法を実数値環境下の追跡問題に適用する.