抄録
強化学習は,制御規則を適応的に獲得する手法であり,自律性のあるシステムを実現する手法として注目されているものの、その実用化のためには未だ多くの課題が残されている。その一つに,状態空間の設計において,早く制御規則を獲得させるには,エージェントの状態空間を粗く設計する必要があり,獲得する制御規則をより良いものにするためには,エージェントの状態空間を細かく設計する必要がある.これらはトレードオフの関係にあるため,予め適切に設計することは非常に難しいといった問題がある. 本研究ではこの問題に対して,エージェントへの入力状態と行動学習器の間に状態フィルタを定義・導入した枠組みを提案する.次に,エントロピーを用いた状態フィルタの実現方法を提案し,迷路問題を用いた計算機実験を通して提案手法の有効性・可能性を確認した.