抄録
本論文では,強化学習における状態価値に基づいた行為獲得・他者行為認識の循環により,行為理解が効率的に安定して発達する手法を提案する.ロボットは観察している一連の人間の動き(明示的な教示信号は無い)を,自律的に分節化して行為のクラスタリングをし,それらの行為における他者の状態価値を推定する.推定した状態価値を自身の状態価値の更新に利用することにより,未学習領域での行動評価が可能になるため,行動学習時にロボットは目標状態近くの空間を効果的に探索できるようになり,行為獲得・他者行為認識が加速される.提案手法をロボカップ中型機リーグに出場しているロボットに適用し,本手法の有効性を示す.