抄録
強化学習法は,試行錯誤により報酬を獲得し,獲得した報酬により行動系列を強化する方法である.近年,部分観測マルコフ決定過程 (POMDPs) に基づく強化学習法が注目されており,不完全知覚の影響を受ける状態群を,過去の履歴を用いて影響の受けない状態群に分離するメモリベース法と,確率的に行動を選択することで不完全知覚状態からの脱出を試みる確率的政策が提案されている.本研究では確率的政策の手法の一つであるEpisode-based Profit Sharing (EPS)に着目し,EPS が不得意な同じ観測が多数繰り返されるような問題に対応するため,順序を考慮に入れた手法を提案する.