抄録
本論文では,不完全知覚状態と判定された状態を状態分割により新たな状態として切り分けて学習する方法を提案する.強化学習の代表的な手法であるProfit Sharingでは,ある程度の不完全知覚には対応可能であるが,同一の入力として知覚されているような状態で異なる出力が求められる場合には,学習が進まない.このような問題を解決するために,不完全知覚状態であるかどうかを判定し,不完全知覚状態であると判定された状態にのみランダム探索による学習を行う研究がある.しかし,ランダム探索では報酬獲得効率を直接的に向上させることは困難である.そこで本論文では,ランダム探索の領域を削減するために,不完全知覚状態かどうかを判定した上で,不完全知覚状態であると判定された部分に関しての状態分割を提案し,その特徴を実験的に検証する.