報酬と罰に関する複数のQ値を有するQ-Learningのメタパラメタ制御に基づく情動行動学習

秋口 俊輔; 前田 陽一郎

doi:10.14864/fss.21.0.174.0

抄録

近年、人間とロボットがより円滑にコミュニケーションを行うためのヒューマンエージェントインタラクション（HAI）が重要な研究テーマとなりつつあり、ロボットに人間に近い感情を埋め込む試みがさまざまなアプローチで行われている。一方、脳科学や生理学の分野においても、人間の認識、学習、感情などに関する研究が急速に進んでいる。筆者らは、強化学習のメタパラメタや情動との関係が示唆されている脳内における神経修飾物質系の働きに注目し、より生物らしい情動発生および情動行動を実現するため、神経修飾物質系のモデルをロボットに埋め込み、これによるメタパラメタ制御を有するQ-Learningを用いた感情表現行動の学習手法について考察する。本手法では、報酬と罰の最大化および最小化に関する複数のQ値を持つQ-Learningを提案し、状況に応じて適応的に行動選択を行うような複雑な情動行動を学習するシステムの実現を目指す。

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）