抄録
強化学習は自律移動ロボットのインテリジェント化のために不可欠の技術であると考えられる.しかし,実際のサイズの問題に適用する際には,よく知られた「次元の呪い」により状態表現のためのメモリ消費量が莫大となるだけでなく,学習速度が著しく低下するという問題がある.マルチエージェント問題では複数のエージェントを観測して協調行動を学習するため,状態表現の問題が顕在化し学習性能を向上させることが困難となる.本研究では,マルチエージェントの代表的な問題である追跡問題に強化学習を適用する際の状態表現について考察する.エージェントの自律性を考慮して相対座標系で入力状態が表現されている場合に,状態表現によって学習性能にどのような違いが生じるかをシミュレーション実験によって評価する.