抄録
以前に,実数値環境下のQ-learningにおいて,状態空間を動的に構築していく方法を提案した.これは,状態のないところから必要に応じて状態を追加し,報酬を用いて更新を行ないながら,不要な状態を削除するというものであった.この方法では行動の削除を行なっていたが,各状態変数のファジィ集合は生成した時のままであった.そこで,本論文では,ファジィ集合の中心値と幅をTD誤差を用いて調整する方法を提案する.これらにより観測データにより柔軟に対応できると考えられる.そして,この方法を実数値環境下における追跡問題に適用する.