抄録
強化学習は教師なし学習の一種であり、環境との相互作用の中から報酬を得るための
行動を学習する手法である。一般的な強化学習法では獲得する報酬を最大化するための政策を学習する。
Profit Sharing(PS)学習法は一般的な強化学習と異なり、
報酬を最大化する行動を学習するのではなく、報酬獲得に寄与する行動のみを
実行する合理的な政策を学習する。PSでは学習によって得られる政策が必ずしも
報酬を最大化するものであることを保証しないものの、比較的高速でロバストな学習性能を示す。このような政策の獲得のためには、宮崎の合理性定理と
呼ばれる定理に従って学習する必要があるが、多くのステップを要する問題,
多くの行動が定義される問題においては、その学習性能が大きく低下する問題があった。
そこで、本研究では、従来の方法とは異なる方法で合理性条件を満足するように新たに忘却操作を加え、この操作と合理性条件の関係をを明らかにした。
これにより、適切に忘却を行うことで、
PSの学習速度の高速化、学習する政策の合理性の向上、環境への適応性を
改善することができることを示した。