抄録
本研究では,強化学習における効果的な転移学習の手法を提案する.強化学習は,エージェントが自律的に目的を達成するための動作を獲得する枠組みである.しかし,この学習には多くの試行錯誤が必要であり,学習に時間がかかる.転移学習は,過去の学習時の情報(知識)を参照することで,この試行錯誤を減らす手法である.これまでにも我々は効果的な転移学習について,タスクを失敗する行動(禁止行動)を用いる手法の議論を重ねてきた.しかし,この手法では,状態遷移確率が同じで目的のみが異なるタスク間(異目的タスク間)では効果的な転移学習が行えなかった.本稿では,異目的タスク間における効果的な転移学習について検討する.具体的には,禁止行動に加え,過去の知識を参照して探索した結果も利用する手法を提案する.また,簡単な実験により提案法の有効性を検証する.