獲物が学習を続ける追跡問題での獲物の行動の変化に対応できる好奇心探索の利用

林 涼介; 森山 甲一; 武藤 敦子; 島 孔介; 松井 藤五郎; 犬塚 信博

doi:10.11517/pjsai.JSAI2025.0_3J4GS503

抄録

マルチエージェント環境の追跡問題は、報酬を得ることが困難で、強化学習では協調行動の学習が難しいという課題がある。これまで、目新しい状態に内部報酬を与える好奇心探索手法のRNDにより、エージェントが協調行動を学習し獲物を多く捕まえたことが示されている。しかし、獲物が学習により行動を変化する場合に、獲物の行動が状態に含まれていたとしても、その他の要素により目新しくないと判断されて内部報酬が小さくなる問題があった。これでは学習する獲物の行動変化に対応する協調行動の学習には不十分で、行動変化に対し内部報酬を発生させ探索させる必要がある。そこで、RNDのターゲットネットワークを状態の特定の要素の違いに応じて出力を離すように学習するSNDを用いることを提案する。獲物の速度が異なる状態間の距離を離すように学習させることで、状態の他の要素が同じでも獲物の速度が異なればターゲットネットワークの出力が大きく変化するため、獲物の行動の変化による速度の違いが目新しい状態に繋がり、内部報酬を生成させることができる。提案手法のターゲットネットワークの特徴表現や内部報酬、獲得報酬をRNDと比較して評価した。

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）