人工知能学会全国大会論文集
Online ISSN : 2758-7347
第39回 (2025)
セッションID: 3J4-GS-5-03
会議情報

獲物が学習を続ける追跡問題での獲物の行動の変化に対応できる好奇心探索の利用
*林 涼介森山 甲一武藤 敦子島 孔介松井 藤五郎犬塚 信博
著者情報
会議録・要旨集 フリー

詳細
抄録

マルチエージェント環境の追跡問題は、報酬を得ることが困難で、強化学習では協調行動の学習が難しいという課題がある。これまで、目新しい状態に内部報酬を与える好奇心探索手法のRNDにより、エージェントが協調行動を学習し獲物を多く捕まえたことが示されている。しかし、獲物が学習により行動を変化する場合に、獲物の行動が状態に含まれていたとしても、その他の要素により目新しくないと判断されて内部報酬が小さくなる問題があった。これでは学習する獲物の行動変化に対応する協調行動の学習には不十分で、行動変化に対し内部報酬を発生させ探索させる必要がある。そこで、RNDのターゲットネットワークを状態の特定の要素の違いに応じて出力を離すように学習するSNDを用いることを提案する。獲物の速度が異なる状態間の距離を離すように学習させることで、状態の他の要素が同じでも獲物の速度が異なればターゲットネットワークの出力が大きく変化するため、獲物の行動の変化による速度の違いが目新しい状態に繋がり、内部報酬を生成させることができる。提案手法のターゲットネットワークの特徴表現や内部報酬、獲得報酬をRNDと比較して評価した。

著者関連情報
© 2025 人工知能学会
前の記事 次の記事
feedback
Top