状態価値に基づく人間行為観察と自己行動学習の循環的発達

田村 佳宏; 高橋 泰岳; 浅田 稔

doi:10.14864/fss.25.0.89.0

抄録

本論文では，強化学習における状態価値に基づいた行為獲得・他者行為認識の循環により，行為理解が効率的に安定して発達する手法を提案する．ロボットは観察している一連の人間の動き（明示的な教示信号は無い）を，自律的に分節化して行為のクラスタリングをし，それらの行為における他者の状態価値を推定する．推定した状態価値を自身の状態価値の更新に利用することにより，未学習領域での行動評価が可能になるため，行動学習時にロボットは目標状態近くの空間を効果的に探索できるようになり，行為獲得・他者行為認識が加速される．提案手法をロボカップ中型機リーグに出場しているロボットに適用し，本手法の有効性を示す．

著者関連情報

お気に入り & アラート

お気に入りに追加
追加情報アラート
被引用アラート
認証解除アラート

閲覧履歴

大気汚染によりエアロゾルから供給される生物に利用可能な鉄
[title in Japanese]

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）