主催: 一般社団法人 人工知能学会
会議名: 第34回全国大会(2020)
回次: 34
開催地: Online
開催日: 2020/06/09 - 2020/06/12
繰り返し囚人のジレンマ(IPD)は社会的ジレンマ状況を理論的に調べる標準的なツールのひとつである.標準的なゲーム理論の分析において標準的な IPD ではエージェント集団にとって望ましくない相互裏切に陥ることが示され,過去の研究においては別のゲームクラスとして強化学習エージェント間の IPD が研究されてきた.しかし,このクラスのゲーム(学習エージェント間のゲーム)はいまだ十分に解明されていない:標準的なゲーム理論の分析方法を適用することは難しいため,さまざまな近似的な解析手法が用いられている.本研究では,強化学習エージェント間の IPD がもつナッシュ均衡を調べた.その結果,標準的な IPD では相互裏切が唯一のナッシュ均衡だが,強化学習エージェント間の IPD では相互協調が唯一のナッシュ均衡である可能性が示された.以上は,強化学習エージェント間の IPD では,個人最適な選択(ナッシュ均衡)と集団最適な選択(パレート効率解)が一致し,その意味で社会的ジレンマが解消されたことを示唆する.