人工知能学会全国大会論文集
Online ISSN : 2758-7347
第35回 (2021)
セッションID: 2I1-GS-5a-03
会議情報

見間違えのある繰り返し囚人のジレンマにおけるQ学習に関する研究
*坂本 充生岩崎 敦
著者情報
会議録・要旨集 フリー

詳細
抄録

本研究では,プレイヤが相手の行動を見間違えうる繰り返し囚人のジレンマにおけるQ学習がどのような協力的/非協力的振る舞いを獲得するかを吟味する. 人はどのようにして協力するのかは人工知能や経済学,生物学における基本的な問題である. 一般には,見間違えが起きる場合,従来よく知られているしっぺ返し戦略 (Tit-For-Tat, TFT) はどちらかがいったん裏切ると,協力状態に戻るのは難しい. 一方で,戦略空間を有限状態機械に限定したレプリケータダイナミクスの下では,見間違えが起きても協力状態を回復しやすい戦略,Win-Stay,Loss-Shift (WSLS) が生き残ることが明らかになっている.そこで本研究では,Q学習がWSLSのような協調行動を回復できる方策を学習できるかを検証する.そのために,見違えの起きる環境でのQ学習アルゴリズムNeural Replicator Dynamics with Mutation (NeuRD+M)を提案した.その結果,NeuRD+Mは既存の学習アルゴリズムと比較して,報酬と協調率の点で優れており,WSLSのような行動を学習することを確認した.

著者関連情報
© 2021 一般社団法人 人工知能学会
前の記事 次の記事
feedback
Top