主催: 一般社団法人 人工知能学会
会議名: 2025年度人工知能学会全国大会(第39回)
回次: 39
開催地: 大阪国際会議場+オンライン
開催日: 2025/05/27 - 2025/05/30
マルチエージェント環境の追跡問題は、報酬を得ることが困難で、強化学習では協調行動の学習が難しいという課題がある。これまで、目新しい状態に内部報酬を与える好奇心探索手法のRNDにより、エージェントが協調行動を学習し獲物を多く捕まえたことが示されている。しかし、獲物が学習により行動を変化する場合に、獲物の行動が状態に含まれていたとしても、その他の要素により目新しくないと判断されて内部報酬が小さくなる問題があった。これでは学習する獲物の行動変化に対応する協調行動の学習には不十分で、行動変化に対し内部報酬を発生させ探索させる必要がある。そこで、RNDのターゲットネットワークを状態の特定の要素の違いに応じて出力を離すように学習するSNDを用いることを提案する。獲物の速度が異なる状態間の距離を離すように学習させることで、状態の他の要素が同じでも獲物の速度が異なればターゲットネットワークの出力が大きく変化するため、獲物の行動の変化による速度の違いが目新しい状態に繋がり、内部報酬を生成させることができる。提案手法のターゲットネットワークの特徴表現や内部報酬、獲得報酬をRNDと比較して評価した。