産業技術総合研究所
東洋大学
2024 年 2023 巻 AGI-026 号 p. 50-55
(EndNote、Reference Manager、ProCite、RefWorksとの互換性あり)
(BibDesk、LaTeXとの互換性あり)
我々は以前再帰的なサブルーチン呼び出しが可能な階層型強化学習アルゴリズム RGoal を提案した。本稿では RGoal のモンテカルロ版アルゴリズムにおける相対価値の基準値の定義を見直し、異なるタスクでサブルーチンが共有される場合の学習の安定化を図る。実装したアルゴリズムはいくつかのテストプログラムで動作を確認した。
すでにアカウントをお持ちの場合 サインインはこちら