本論文ではマルチエージェント環境での強化学習を扱う.従来のマルチエージェント強化学習はゲーム理論の
ナッシュ均衡
に収束させることを目的とするが,囚人のジレンマのように
ナッシュ均衡
がパレート最適とならないゲームが存在する.一方で,報酬を操作することにより
ナッシュ均衡
から逸脱する行動を学習させる研究が存在するが,
ナッシュ均衡
がパレート最適となるゲームでは逆に悪影響を与えることがある.したがって本研究では,おのおのの立場が同じ対称な環境において,囚人のジレンマと同様のゲームでは
ナッシュ均衡
から逸脱する行動を,それ以外のゲームでは
ナッシュ均衡
を構成する行動を学習することを目的とした.まず,
ナッシュ均衡
とパレート最適の概念から対称なマルチエージェント環境を非干渉・泥沼・選択・競合の四つの状況に分類した.囚人のジレンマは泥沼状況である.さらに,泥沼状況とそれ以外の状況に適する自己評価生成法である「近隣報酬」と「報酬差分」を導入した.それから,強化学習手法としてQ学習を用いる各エージェントについて,Q関数と報酬の関係から状況を判定する条件を二つ導入し,少なくとも一つが満たされる場合に「近隣報酬」を用い,満たされない場合に「報酬差分」を用いて自己評価を生成し学習する「自動選択」を提案した.上記各状況に対応するゲームと途中で状況間を遷移するゲームにより実験を行い,提案手法の有効性を確認した.
抄録全体を表示