価値システムに基づく他者行為観察と自己行動学習の循環的発達

高橋 泰岳; 田村 佳宏; 浅田 稔

doi:10.3156/jsoft.21.640

抄録

本論文では，強化学習における状態価値に基づいた行為獲得・他者行為認識の循環により，行為理解が効率的に安定して発達する手法を提案する．自身の試行錯誤の経験のみによる学習では獲得する行為が複雑になればなるほど多大な探索空間や莫大な学習時間が必要になる問題が強化学習による行為獲得には存在する．他者行為を観察し学習対象の行為の状態価値を推定し，それを自己の行動学習にフィードバックすることで行動学習を加速可能である．しかし，観測した他者行為を自己の行動学習に利用するためには，他者がどの行為を行っているのかを認識しなくてはならない．一方で，自己の行為の状態価値を基に他者の行為認識をロバストに行えることが先行研究によって示されている．行動学習と他者行為認識を交互に繰り返すことで，行為獲得を通した行為理解が効率的に安定して進められる．本手法の有効性を検証するため，RoboCup中型機リーグに出場しているロボットを想定したシミュレータ，及び実機に本手法を適用し，本手法の有効性を示す．

著者関連情報

お気に入り & アラート

閲覧履歴

前身誌

日本ファジィ学会誌

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）