抄録
近年、ロボットに人間に近い感情を埋め込む試みが盛んに行われており、心理学だけでなく生理学的な知見を取り入れた工学的研究も行われはじめている。また、脳科学の分野では神経修飾物質系の働きが次第に明らかになりつつあり、強化学習のメタパラメタと神経修飾物質系の関連性を示す研究も報告されている。これまで、筆者らは神経修飾物質系によるQ-Learningのメタパラメタ制御に基づく自律移動ロボットの情動行動学習手法を提案している。本研究では、報酬と罰の最大化および最小化に関する複数のQ値を持つ目標選択型Q-Learningを提案する。この手法により状況に応じて学習目標を選択的に変更することで適応的にポジティブまたはネガティブな価値評価に基づく行動選択を行うような複雑な情動行動を学習するシステムの実現を目指す。また、ロボットシミュレータによるシミュレーションおよび感性評価を行ったので、この結果についても報告する。