主催: 一般社団法人 人工知能学会
会議名: 2024年度人工知能学会全国大会(第38回)
回次: 38
開催地: アクトシティ浜松+オンライン
開催日: 2024/05/28 - 2024/05/31
動的な環境における複数エージェントの累積報酬の同時最大化問題は確率ゲームと呼ばれる.リーダー・フォロワー間の非対称なエージェント関係においては,最適反応を示すフォロワーの下でリーダーの報酬を任意の初期状態で最大化するStackelberg均衡が定義される.定常なStackelberg均衡(SSE)は常に存在するとは限らず,既存手法は収束性と収束点がSSEに一致することを保証するために強い仮定を必要とする.しかし,我々の分析によれば,既存手法はSSEに一致しない収束点ではSSEに準ずる性能が期待できない.我々はStackelberg均衡の観点でのPareto最適性という新たな解概念を提案し,方策反復法に基づくPareto最適方策のためのアルゴリズムを構築する.提案手法は局所的な方策改善を繰り返すことでParetoフロントに単調に近づき,かつPareto最適性の必要条件を満たす方策に収束することが保証される.