人工知能学会全国大会論文集
Online ISSN : 2758-7347
第34回 (2020)
セッションID: 1P5-GS-7-03
会議情報

強化学習を戦略とする繰り返し囚人のジレンマのナッシュ均衡の数値的分析
*鳥居 拓馬日高 昇平
著者情報
会議録・要旨集 フリー

詳細
抄録

繰り返し囚人のジレンマ(IPD)は社会的ジレンマ状況を理論的に調べる標準的なツールのひとつである.標準的なゲーム理論の分析において標準的な IPD ではエージェント集団にとって望ましくない相互裏切に陥ることが示され,過去の研究においては別のゲームクラスとして強化学習エージェント間の IPD が研究されてきた.しかし,このクラスのゲーム(学習エージェント間のゲーム)はいまだ十分に解明されていない:標準的なゲーム理論の分析方法を適用することは難しいため,さまざまな近似的な解析手法が用いられている.本研究では,強化学習エージェント間の IPD がもつナッシュ均衡を調べた.その結果,標準的な IPD では相互裏切が唯一のナッシュ均衡だが,強化学習エージェント間の IPD では相互協調が唯一のナッシュ均衡である可能性が示された.以上は,強化学習エージェント間の IPD では,個人最適な選択(ナッシュ均衡)と集団最適な選択(パレート効率解)が一致し,その意味で社会的ジレンマが解消されたことを示唆する.

著者関連情報
© 2020 一般社団法人 人工知能学会
前の記事 次の記事
feedback
Top