人工知能学会全国大会論文集
Online ISSN : 2758-7347
第38回 (2024)
セッションID: 4D3-GS-2-02
会議情報

一般和確率ゲームにおける定常Stackelberg均衡のための方策反復法
Stackelberg均衡の観点でのパレート最適方策の提案と方策改善による反復的解法の収束保証
*工藤 ミコト秋本 洋平
著者情報
会議録・要旨集 フリー

詳細
抄録

動的な環境における複数エージェントの累積報酬の同時最大化問題は確率ゲームと呼ばれる.リーダー・フォロワー間の非対称なエージェント関係においては,最適反応を示すフォロワーの下でリーダーの報酬を任意の初期状態で最大化するStackelberg均衡が定義される.定常なStackelberg均衡(SSE)は常に存在するとは限らず,既存手法は収束性と収束点がSSEに一致することを保証するために強い仮定を必要とする.しかし,我々の分析によれば,既存手法はSSEに一致しない収束点ではSSEに準ずる性能が期待できない.我々はStackelberg均衡の観点でのPareto最適性という新たな解概念を提案し,方策反復法に基づくPareto最適方策のためのアルゴリズムを構築する.提案手法は局所的な方策改善を繰り返すことでParetoフロントに単調に近づき,かつPareto最適性の必要条件を満たす方策に収束することが保証される.

著者関連情報
© 2024 人工知能学会
前の記事 次の記事
feedback
Top