強化学習に内発的動機づけ機構を組み込んだアプローチの1つとして,階層型強化学習がある.階層型強化学習は,Agentの内部機構を問題解決のための上位方策(サブゴールの適用順序)と下位方策(サブゴールまでの行動系列)の2つに分割し,それぞれを学習するものである.サブゴールの定義が適切であれば,従来の強化学習では解決が困難な報酬が疎な環境や長い行動系列の学習を必要とする環境でも問題解決ができることが示されている.しかしながら,既存の階層型強化学習は,問題解決に必要なサブゴール群が事前に得られていることが前提となっており,自律的な強化学習を実現するアルゴリズムとなっていない.そこで本研究では,問題解決に必要な経験や適切なサブゴール群を徐々に生成する仕組みを導入した新しい強化学習アルゴリズムであるStepwise Unified Hierarchical Reinforcement Learning(SUHRL)を提案する.SUHRLは,Fuzzy ARTによる段階的なクラスタリングと経験獲得処理を行うことで,適切なサブゴールを段階的に生成して問題解決を行う.MiniGrid環境やMontezuma’s Revengeを用いた評価実験の結果,提案手法によって段階的に必要なサブゴールを生成することができ,自律的に問題解決できることを示す.