抄録
強化学習は,エージェントの制御規則を適応的に調節・獲得する場合などへの応用が盛んであるが,その実用化に際して,状態空間を予め適切に設計することが難しいという点が問題点の一つとなっている.この点に留意し,エージェントへの状態入力と行動学習の間に状態フィルタを定義・導入した計算モデルについての検討を進めており,エントロピーを用いた状態フィルタの一実現法を提案している.本稿では,状態フィルタそのものの評価指標を導入し,それにより提案手法の改良を試みる.そして,計算機実験を通して状態フィルタの比較・検討を行い,状態フィルタの評価指標の妥当性と提案手法の有効性・可能性について検討する.